推荐 序 一 


我 们 正 处 于 飞速 友 展 的 大 数据 时 代 。 不 同 于 以 往 ， 现 如 今 丰 富 的 数据 信息 让 我 们 有 能 力 更 好 地 了 解 消费 者 、 顾 客 和 竞争 对 
手 。 通 过 电 商 网 站 评论 收集 可 以 及 时 知悉 顾客 对 于 产品 的 看 法 ， 通 过 微 博 数据 收集 可 以 及 时 洞察 潜在 消费 者 的 购买 意向 和 需求 ， 
通过 对 手 网 站 信息 收集 可 以 及 时 知晓 对 手 的 实时 动态 ， 真 正 做 到 运筹 帷 幅 之 中 ,决胜 干 里 之 外 。 


本 书 残 是 帮助 你 打开 数据 信息 收集 大 门 的 钥匙 ! 本 书 从 最 基本 的 Python 语 言 讲 起 ， 完 整地 介绍 了 拒 虫 程序 的 每 一 个 知识 模 
块 ， 同 时 附 有 最 新 案例 教 大 家 如 何 利 用 学 到 的 知识 进行 实 操 ， 让 不 了 解 Python 语言 的 人 也 可 以 在 短 时 间 内 擎 握 爬 虫 程序 的 纺 
， 快 速成 长 为 和 代 虫 高 手 。 本 书 条 理 清晰 、 层 次 分 明 ， 实 用 性 极 强 。 


dn] 


作者 唐 松 是 一 名 年 轻 有 为 、 经 验 丰 富 的 数据 分 析 专 家 。 他 通过 这 本 书 和 读者 分 享 多 年 网 络 爬 虫 和 数据 挖掘 的 经 验 。 这 本 书 是 
IT 人 士 、 企 业 管 理 人 员 、 市 场 吾 销 人 员 和 有 志 于 在 数据 分 析 方 面 有 所 突破 的 人 十 值得 一 读 的 好 书 。 


香港 中 文大 学 市 场 系 教授 
刘 建 南 


2017 年 6 月 26 日 


HE PP 


“ 工 欲 善 其 事 ， 必 先 利 其 器 。" 


《论坛 LRA 


读 这 本 书 需要 考虑 这 样 一 个 问题 : 到 底 是 学 习 Python 重 要 ， 还 是 掌握 网 络 乳 虫 重要 ， 抑 或 两 者 一 样 重要 ? 对 于 这 个 问题 的 
回答 将 直接 影响 读者 最 后 能 从 这 本 书 里 学 到 什么 。 我 来 给 大 家 一 个 简单 的 定义 ， 网 络 爬 虫 是 “ 事 ”， 而 Python 是 “器 ”， 是 用 
来 进行 网 络 胞 虫 的 锋 丸 。 在 这 个 定义 下 ， 这 一 问题 束 转 化 成 了 究竟 是 “ 事 ” 重 要 还 是 “器 ”重要 。 


如 果 你 是 管理 者 ， 那 么 这 个 答案 丈 玩 接近 于 “ 事 ”。 因 为 管理 者 在 向 所 在 的 团队 发 号 施 令 之 前 ， 要 先 思 考 你 的 想法 到 底 能 否 
和 所 在 团队 的 技术 优势 相 契 合 。 近 年 来 ， 我 们 眼见 大 数据 以 “迅雷 不 及 掩 卫 之 势 ” 席 卷 全 球 ， 但 这 场 旋 风 的 背后 是 一 个 残酷 的 事 
SE: 很 多 公司 在 迈 入 大 数据 领域 后 遭遇 “滑铁卢 ”。 究 其 原因 ， 管 理 层 的 惰性 首 当 其 ; 中 。 当 管理 层 只 知道 在 高 尔 夫 球 场 对 大 数据 
高 谈 阔 论 时 ， 我 们 又 如 何 期 艳 瓜 术 部 门 能 够 懂得 并 且 做 出 管理 者 想 要 做 的 “ 事 ” 呢 ?因此 ， 对 于 本 书 的 前 12 草 ， 省 理 者 要 能 够 
清晰 地 回答 两 个 问题 : 第 一 个 问题 是 这 个 章节 探讨 的 是 什么 问题 ， 第 二 个 问题 是 为 什么 要 探讨 这 个 问题 。 举 个 例子 ， 对 于 第 1 
Ee, WRAP on, SIRENS CPB on 〈 如 空气 净化 器 ) 的 销量 数据 来 做 潜在 市 场 
评估 时 ， 丈 要 考虑 肛 虫 有 哪些 潜在 的 法 律 纠纷 、 公 司 的 乳 虫 合 不 合法 。 表 举 个 例子 ， 对 于 第 6 草 ， 你 需要 思考 数据 的 存储 对 公司 
有 什么 影响 ， 如 何 存 储 数 据 更 有 利于 公司 各 个 部 门 (如 销售 部 门 ) 的 高 效 利用 ， 能 够 更 万 便 地 与 公司 的 数据 库 对 接 等 。 


如 果 你 是 拷 术 人 员 、 学 者 或 扩 术 “小 日 ”， 这 本 书 束 是 教 你 如 何 “ 利 其 器 ”。 与 其 认为 是 通过 Python 学 习 网 络 胞 虫 ， 读 者 
不 如 把 这 本 书 看 作 是 通过 拒 虫 来 学 习 Python。Python 是 “器 ”， 束 意味 着 世上 也 有 其 他 的 “器 ” (WOR, Java) ， 而 这 些 工 


具 之 间 的 基本 思想 往往 是 类 似 的 。 例 如 ， 都 免不了 做 逻辑 判断 (Aif, then) 和 循环 计算 (如 for 循 环 ) ， 软 件 语 言 之 间 往 往 是 

一 通 百 通 。Python 是 时 下 热门 的 开源 软件 (这 意味 着 有 人 源源 不 断 地 开 友 更 新 且 更 强大 的 包 给 你 用 ) ， 又 不 像 C 语 言 那 般 底层 

而 需要 巨大 的 学 习 成 本 。 读 者 若是 能 始 于 有 息 虫 ,一步 一 个 脚印 ， 慢 慢 掌 握 好 Python 这 门 语言 ， 将 来 还 可 以 利用 Python 甚 至 是 其 
他 语言 去 做 一 些 附 加 值 更 高 的 “ 事 ”， 如 人 工 智能 、 统 计 建 模 等 。 很 遗憾 ， 这 条 学 习 的 道路 没有 什么 捷径 可 走 ， 唯 一 的 方法 束 是 
不 断 尝 试 、 不 断 失 败 、 不 断 改 进 。 本 书 最 后 4 章 综合 考虑 登录 、 乳 虫 速 度 、 反 有 拒 虫 、 大 规模 胞 虫 等 现实 中 遇 到 的 问题 ， 为 读者 提 
供 一 系列 非 钊 值得 在 手 操作 的 实 成 演练 学 例 。 本 书 语言 质朴 、 逻 辑 清 晰 、 循 序 渐 进 ， 即 使 是 零 基 础 的 读者 ， 在 本 书 的 辅导 下 也 可 
以 对 Python 有 疏 虫 一 步 步 地 从 入 门 到 精通 。 


工 欲 善 其 事 ， 必 先 利 其 器 。 希 望 读者 能 够 借 此 书 获得 “ 事 ” 或 “器 ”， 了 解 村 术 团 队 的 运作 模式 ， 同 时 希望 李 术 “ 小 白 ” 能 
通过 时 常 便 阅 此 书 不 断 解 决 有 把 虫 中 直到 的 疑惑 。 


香港 中 文大 学 市 场 系 博士 生 
李 宜 威 


2017 年 6 月 25 日 


胞 虫 程序 是 DT (Data Technology， 数 据 扩 术 ) 收集 信息 的 基础 ， 程 序 员 有 息 取 目标 网 站 的 资料 后 ， 残 可 以 分 析 和 建立 应 用 
了 。 我 们 关心 的 是 科技 如 何 给 大 家 带 来 实效 ， 进 而 实现 目标 和 理想 ， 不 能 应 用 的 技术 称 为 魔术 ， 只 能 用 于 表演 。 我 们 十 分 关注 读 
者 能 否 把 握 爬 虫 概 念 ， 所 以 相关 的 技术 结合 不 同 的 实例 讲解 ， 和 希望 能 指导 读者 完成 整个 数据 采集 的 沅 程 。 


Python 是 一 个 简单 、 有 效 的 语言 ， 爬 虫 所 需 的 获取 、 人 存储 、 整 理 等 流 程 都 可 以 使 用 Python 系统 地 实现 。 此 外 ， 绝 大 部 分 计 
算 机 也 可 以 直接 使 用 Python 语言 或 简单 地 安 半 Python 系统 ， 相 信 读 者 一 定 能 轻松 地 把 Python 作为 爬虫 的 主要 扩 术 。 


动 其 心 者 ， 当 具有 大 本 大 源 

DT 的 核心 是 从 信息 的 源头 去 理解 和 分 析 ， 以 做 出 能 打动 对 方 的 行动 决策 方案 。 由 谷歌 搜索 到 现在 的 大 数据 时 代 ， 有 息 虫 技术 
的 重要 性 和 广泛 性 一 直 很 突出 。 程 序 员 理解 了 信息 的 获取 、 人 存储 和 整理 各 方面 的 基本 关系 ， 才 有 可 能 系统 地 收集 和 应 用 不 同 源头 
和 干 变 万 化 的 网 站 信息 。 
QUES 

fp RBS VANS, SEI RFA AuEN LA, RUNES. GA, GHD MBM. $ 
重 数据 供应 者 的 知识 产权 和 正 弟 运作 才能 产生 长 久 共 利 的 环境 。 保 障 对 方 平台 的 正 弟 运 作 是 每 个 程序 员 都 应 当做 到 的 ， 因 此 我 们 
把 代 虫 的 制约 放 在 本 书 的 第 1 草 讨 论 。 


Aaa 


BRM Aiea, WSS REC ASE. MRA RETIN Baws, FSM Bar Sade 


获取 人 信息。 另外， 程序 员 要 不 断 学 习 新 拉 术 ， 目 我 提高 ， 这 样 在 季 虫 的 过 程 中 才能 够 理解 互联 网 的 运作 和 结构 。 
最 后 ， 感 谢 好 友 唐 松 给 予 我 一 起 创作 这 本 书 的 机 会 ， 让 我 可 以 分 享 乳 虫 技术 和 当中 的 乐趣 。 


思路 宣 邦 智能 应 用 有 限 公司 行政 总 裁 


近年 来 ， 大 数据 成 为 业界 与 学 术 界 最 火热 的 话题 之 一 ， 数 据 已 经 成 为 每 个 公司 极为 重要 的 资产 。 互 联网 大 量 的 公开 数据 为 个 
人 和 公司 提供 了 以 往 想 象 不 到 的 可 以 获取 的 数据 量 。 而 擎 握 网 络 季 虫 技术 可 以 帮助 你 获取 这 些 有 用 的 公开 数据 集 。 


执笔 本 书 的 起 因 是 我 打算 在 知 乎 上 写 博 客 向 香港 中 文大 学 市 场 营销 学 的 研究 生 讲 解 Python 网 络 胞 虫 技 术 ， 让 这 些 商科 学 生 
掌握 一 些 大 数据 时 代 重 要 的 技术 能 力 。 因 此 ， 本 书 除 了 面 同 搁 术 人 员外 ， 还 面向 不 懂 编 程 的 小 日 。 本 书 尽量 做 到 浅显 易 懂 ， 希 望 
能 够 将 网 络 季 虫 学 习 的 门槛 降低 ， 让 大 家 都 能 享受 到 使 用 网 络 胞 虫 编程 的 乐趣 。 


我 是 从 商科 目 学 转 到 数据 科学 的 ， 因 此 编程 和 数据 挖 扬 能力 都 是 上 网 自学 的 。 在 这 个 过 程 中 ， 我 深刻 地 体会 到 ， 与 不 知 所 云 
的 教学 相 比 ， 深 入 浅 出 的 教学 对 学 习 效 率 有 很 大 提升 。 因 此 ， 学 习 知 识 最 重要 的 两 点 是 ， 通 过 富有 风 辑 的 框架 解构 学 习 和 通过 实 
战 解决 实际 问题 ， 从 而 增强 学 习 效 果 。 本 书 的 内 容 侧重 于 将 网 络 候 虫 扩 术 进行 框架 性 的 解构 ， 并 使 用 代码 将 息 虫 拉 术 应 用 于 抓 取 
真实 的 网 站 。 


本 书 所 有 代码 均 在 Python 3.6 中 测试 通过 ， 可 以 从 Github 下 载 这 些 代码 ， 地 址 
为 https://github.com/Santostang/PythonScraping; 也 可 以 从 百度 网 盘 下 载 ， 地 址 为 http://pan.baidu.com/s/1c2w9rck (È 
意 区 分 数字 和 字母 大 小 写 ) 。 为 了 方便 大 家 练习 Python 网 络 乳 虫 ， 我 专门 搭建 了 一 个 博客 网 站 用 于 Python 网 络 乳 虫 的 教学 ， 本 
书 教学 部 分 的 胞 虫 全 部 基于 把 取 我 的 个 人 博客 网 站 (www.santostang.com) 。 一 万 面 ， 由 于 这 个 网 站 不 会 更 改 设计 和 框架 ， 
因此 本 书 的 网 络 爬 虫 代码 可 以 一 直 使 用 ; 另 一 方面 ， 由 于 这 是 我 目 己 的 博客 网 站 ， 因 此 可 以 避免 一 些 法 律 上 的 风险 。 


本 书 主要 分 为 三 部 分 : 基础 部 分 (第 1~6 章 ) 、 进 阶 部 分 〈 第 7~12 和 章 ) 和 项 目 实 跤 部 分 (第 13~16 章 ) ， 以 此 来 针对 不 同 
类 型 的 读者 。 如 果 你 是 Python 拒 虫 的 初学 者 ， 那 么 可 以 先 学 习 基 础 部 分 ， 这 部 分 每 一 章 的 最 后 都 有 目 我 实践 虞 ， 读 者 可 以 通过 
实践 题 熟 悉 编 写 Python 拒 虫 代码 。 如 果 你 已 经 对 Python 有 息 曰 有 所 了 解 ， 但 是 在 实践 中 直到 了 各 种 问题 ， 那 么 可 以 直接 学 习 进 阶 
部 分 ， 这 部 分 为 你 在 他 虫 实 践 中 遇 到 的 问题 提供 了 解决 万 案 。 本 书 最 后 的 项 目 实践 部 分 是 让 你 在 学 习 Python 胞 虫 后 ， 可 以 通过 
生 真 实 网 站 中 练习 来 消化 和 吸收 Python 有 息 虫 的 知识 。 


最 后 ， 感 谢 卞 诚 君 老师 在 我 写 书 过 程 中 给 予 的 指导 ! 感谢 我 的 父母 在 撰写 此 书 的 过 程 中 给 予 的 文 持 和 鼓励 ! 还 要 感谢 李 宜 
威 、 周 局 航 、 吴 嘉 杰 等 各 位 朋友 以 及 x 刘 建 南 教授 等 各 位 前 硬 在 我 的 数据 科学 之 路 上 一 直 给 予 的 支持 和 无 私 帮助 ! 


唐 松 


2017 年 6 月 
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网 络 有 他 虫 束 是 自动 地 从 互联 网 上 获取 程序 。 想 必 你 听 襄 过 这 个 词汇 ， 但 是 又 不 太 了 解 ， 大 家 会 完 得 掌握 网 络 息 虫 还 是 要 伦 一 
些 工夫 的 ， 因 此 这 个 门槛 让 你 有 点 望而却步 。 


我 党 党 党 得 计算 机 和 互联 网 的 友 明 给 人 类 市 来 了 如 此 大 的 万 便 ， 让 人 们 不 用 阅读 说 明 书 束 能 知道 如 何 上 手 ， 但 是 偏偏 编程 的 
道路 又 是 如 此 艰 玉 。 因 此 ， 本 书 尽 可 能 地 做 到 浅显 易 懂 ， 希 望 能 够 将 网 络 肛 虫 学 习 的 门槛 降低 ， 大 家 都 能 享受 到 使 用 网 络 候 虫 编 
程 的 快乐 。 


本 书 的 第 1 章 将 介绍 网 络 他 虫 的 基础 部 分 ， 包 括 学 习 网 络 乳 虫 的 原因 、 网 络 乳 虫 带 来 的 价值 、 网 络 胞 虫 是 否 合法 以 及 网 络 肛 
虫 的 基本 议题 和 框架 。 让 读者 在 开始 学 习 胞 虫 之 前 理解 为 什么 学 习 、 要 学 什么 内 容 。 


1.1 ATTA hier 


在 数据 量 爆 发 式 增长 的 互联 网 时 代 ， 网 站 与 用 户 的 沟通 本 质 上 是 数据 的 交换 : 搜索 引擎 从 数据 库 中 提取 搜索 结果 ， 将 其 展现 
CARP; 电 商 将 产品 的 摘 述 、 价 格 展现 在 网 站 上 ， 以 供 买 家 选择 心仪 的 产品 ; 社交 媒体 在 用 户 生 态 圈 的 目 我 交互 下 产生 大 量 
文本 、 图 片 和 视频 数据 。 这 些 数 据 如 果 得 以 分 析 利 用 ， 不 仅 能 够 帮助 第 一 方 企业 (也 就 是 拥有 这 些 数 据 的 企业 ) 做 出 更 好 的 决 
策 ， 对 于 第 三 方 企业 也 是 有 益 的 。 


1.1.1 网 络 爬 虫 能 市 来 什么 好 处 


大 量 企业 和 个 人 开始 使 用 网 络 乳 虫 采 集 互联 网 的 公开 数据 。 那 么 对 于 企业 而 言 ， 互 联网 上 的 公开 数据 能 够 市 来 什么 好 处 呢 ? 
这 里 将 用 国内 某 家 知名 家 电 品 牌 举例 说 明 。 


作为 一 个 家 电 品 牌 ， 家 电 电 商 市 场 的 重要 性 日 益 凸 显 。 该 品牌 需要 及 时 了 解 对 手 的 产品 特点 、 价 格 以 及 销量 情况 ， 才 能 及 时 
跟 进 产品 开发 进度 和 营销 策略 ， 从 而 知己 知 彼 ， 赢 得 竞争 。 过 去 ， 为 了 获 取 对 手 闫 品 的 特 点 ， 产 品 研 友 部 门 会 手动 访问 一 个 个 电 
商 产 品 页 面 ， 人 工 复制 并 粘贴 到 Excel 表 格 中 ， 制 作 竞 品 分 析 报 告 。 但 是 这 种 重复 性 的 手动 工作 不 仪 溪 费 军 贯 的 时 间 ， 一 不 留 昼 
复制 少 了 一 个 数字 还 会 导致 数据 错误 ; 对 手 产品 的 销量 则 是 由 某 一 家 和 容 询 公司 提供 报告 ， 每 周一 次 ， 但 是 报告 缺乏 实时 性 ， 难 以 
针对 快速 多 变 的 市 场 及 时 调整 价格 和 营销 策略 。 针 对 上 述 两 个 痛 点 一 一 无 法 目 动 化 和 无 法 实时 获取 ， 本 书 介绍 的 网 络 肛 虫 技术 
都 能 够 很 好 地 解决 ， 实 现实 时 自动 化 获取 数据 。 
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为 大 数据 分 析 领 域 的 第 一 个 环节 .。 


对 于 这 些 公 开 数 据 的 应 用 价值 ， 我 们 可 以 使 用 KYC 框 架 来 理解 ， 也 就 是 Know Your Company (了 解 你 的 公司 ) 、Know 
Your Competitor (了 解 你 的 竞争 对 手 ) 、Know Your Customer (了 解 你 的 客户 ) 。 这 是 理解 和 进行 简单 描述 性 分 析 公 开 数 
据 残 可 以 市 来 的 价值 。 进 一 步 进 ， 通 过 机 器 学 习 和 统计 算法 分 析 ， 在 言 销 领 域 可 以 帮助 企业 做 好 4P (Product: 产品 创 
新 ，Place: 智能 选 址 ，Price: WATS, Promotion: 数据 驱动 的 营销 活动 ) ; 在 金融 领域 ,数据 驱动 的 征 信 等 应 用 会 带 来 越 


来 越 大 的 价值 。 


1.1.2 能 从 网 络 上 胞 取 什么 数据 


人 入 单 来 蜗 ， 平 时 在 网 上 浏览 网 站 时 所 有 能 见 到 的 数据 都 可 以 通过 有 息 虫 程序 保存 下 来 。 从 社交 媒体 的 每 一 条 友 帖 到 团购 网 站 的 
价格 及 点 评 ， 再 到 招聘 网 站 的 招聘 信息 ， 这 些 数 据 都 可 以 存储 下 来 。 


1.1.3 WARMER 


正在 准备 继续 阅读 本 书 的 读者 可 能 会 问 目 己 : 我 应 不 应 该 学 乳 虫 ? 


这 也 是 我 之 前 问 目 己 的 一 个 问题 ， 作 为 一 个 本 科 是 商学 耽 的 学 生 ， 面 对 着 技术 创新 驱动 变革 的 潮流 ， 我 还 是 自学 了 Python 
的 网 络 代 虫 扫 术 ， 从 此 踏 入 了 编程 的 世界 。 对 于 编程 小 日 而 言 ， 入 门 网 络 胞 虫 并 没有 想象 中 那么 困难 ， 困 难 的 是 你 有 没有 踏 出 第 
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我 认为 ， 对 于 任何 一 个 与 互联 网 有 关 的 从 业 人 员 ， 无 论 是 非 技术 的 营销 人 员 ， 还 是 前 端 、 后 端的 程序 员 ， 都 应 该 学 习 网 络 肛 
虫 技术 。 


一 万 面 ， 网 络 乳 虫 人 简单 易学 、|] 槛 很 低 。 没 有 任何 编程 基础 的 人 在 认真 看 完 本 书 的 肛 虫 基础 内 容 后 ， 都 能 够 目 己 完成 简单 的 
网 络 季 虫 任务 ， 从 网 站 上 自动 获取 需要 的 数据 。 


另 一 方面 ， 网 络 爬 虫 不 仪 能 使 你 学 会 一 项 新 的 扩 术 ， 还 能 让 你 在 工作 的 时 候 节 省 大 量 的 时 间 。 如 果 你 对 网 络 爬 虫 的 世界 有 兴 
趣 ， 融 算 你 不 懂 编 程 也 不 要 担心 ， 本 书 将 会 深入 污 出 地 为 你 进 解 网 络 爬 虫 。 


1.2 ”网 络 肛 虫 是 否 合 法 


网 络 季 虫 合法 吗 ? 


网 络 胞 虫 领域 目前 还 属于 早期 的 拓 荡 阶段， 虽然 互联 网 世界 已 经 通过 自身 的 协议 建立 起 一 定 的 道德 规范 (Robots 协 议 ) , 
但 法 律 部 分 还 在 建立 和 完善 中 。 从 目前 的 情况 来 看 ， 如 果 抓 取 的 数据 属于 个 人 使 用 或 科研 荡 畴 ， 基 本 不 存在 问题 ;而 如 果 数 据 属 
于 商业 全 利 光 畴 ， 融 要 残 事 而 论 ， 有 可 能 属于 违法 行为 ， 也 有 可 能 不 违法 。 


1.2.1 Robots 协 议 
Robots (EEY) 的 全 称 是 “网 络 肛 虫 排除 标准 ” (Robots Exclusion Protocol) ， 网 站 通过 Robots 协 议 告诉 搜索 


引擎 哪些 页 面 可 以 抓 取 ， 哪 些 页 面 不 能 抓 取 。 该 协议 是 国际 互联 网 界 通 行 的 道德 规范 ， 昌 然 没有 写 入 法 律 ， 但 是 每 一 个 公 虫 都 应 
该 遵守 这 项 协议 。 


下 面 以 淘宝 网 的 robots.txt 为 例 进行 介绍 。 


这 里 仪 截取 部 分 代码 ， 查 看 完整 代码 可 以 访问 https://www.taobao.com/robots.txt。 


在 上 面 的 robots 文 件 中 ， 淘 宝 网 对 用 尸 代理 为 百度 胞 虫 引擎 进行 了 规定 。 


以 Allow 项 的 值 开头 的 URL 是 允许 robot 访 问 的 。 例 如 ，Allow: /article 人 允许 百度 爬虫 引擎 访问 /article.htm、 


/article/12345.com 等 。 


以 Disallow 项 为 开头 的 链接 是 不 允许 百度 爬虫 引擎 访问 的 。 例 如 ，Disallow: /product/ 不 允许 百度 胞 虫 引 掌 访 
问 /product/12345.com 等 。 


最 后 一 行 ，Disallow : / 蓉 止 百度 爬虫 访问 除了 Allow 规 定 页 面 外 的 其 他 所 有 页 面 。 


因此 ， 当 你 在 百度 搜索 “淘宝 ”的 时 候 ， 搜 索 结果 下 方 的 小 字 会 出 现 : “由 于 该 网 站 的 robots.txt 文 件 存在 限制 指令 (限制 
搜索 引擎 抓 取 ) ， 系 统 无 法 提供 该 页 面 的 内 容 描述 ”， 如 图 1-1 所 示 。 百 度 作为 一 个 搜索 引擎 ， 良 好 地 遵守 了 淘宝 网 的 robot.txt 
协议 ， 所 以 你 是 不 能 从 百度 上 搜索 到 淘宝 内 部 的 产品 信息 的 。 
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图 1-1 百度 搜索 提示 
淘宝 的 Robots 协 议 对 谷歌 他 虫 的 待遇 则 不 一 样 ， 和 百度 乳 虫 不 同 的 是 ， 它 允许 谷歌 他 虫 乳 取 产 品 的 页 面 
Allow: /product。 因 此 ， 当 你 在 谷歌 搜索 “淘宝 iphone7” 的 时 候 ， 可 以 搜索 到 淘宝 中 的 产品 ， 如 图 1-2 所 示 。 


(So gle 淘宝 iphone 7 


All Images Mews Videos Viapes More Settings 


About 1.350 000 results (0.99 seconds|} 


cst iPhone 7 - (PRODUCT)RED - hkcsl.com 
[Ad] www hkesi com/ T 
出 机 上 圭 即 疯 6,000 Cuba. Pere, FE, ee. ioe |! 


[iphone7 Hit] 推荐 _ 品 牌 _ 信 格 - SSH 
https:/itw taobao comiproduct/iphone 7 手 楼 吉 ntm + Translate this page 

ne hone /PteAa , Sich pee aS (Bis. FB, HEHE. AGRAS iphone FERNER 
peo MO Ll eiphones S58. iphone fika iphones, iphone .. 


图 1-2 ”谷歌 搜索 的 信息 


当 你 肥 取 网 站 数据 时 ， 无 论 是 否 仅 供 个 人 使 用 ， 都 应 该 遵守 Robots 协 议 。 


1.2.2 ”网 络 爬 虫 的 约束 


除了 上 述 Robots 协 议 之 外 ， 我 们 使 用 网 络 候 虫 的 时 候 还 要 对 上 自己 进行 约束 : 过 于 快速 或 者 频密 的 网 络 爬 虫 都 会 对 服务 器 产 
生 巨 大 的 压力 ， 网 站 可 能 封 贷 你 的 IP， 甚 至 采取 进一步 的 法 律 行 动 。 因 此 ， 你 需要 约束 目 己 的 网 络 他 虫 行为 ， 将 请 求 的 速度 限定 
在 一 个 合理 的 沁 围 之 内 。 


提示 ”本 书 中 的 爬 贝 仅 用 于 学 习 、 研 究 用 途 ， 请 不 要 用 于 非法 用 途 。 任 何 由 此 引发 的 法 律 纠纷 ， 请 自行 负责 。 


实际 上 ， 由 于 网 络 乳 虫 获 取 的 数据 市 来 了 巨大 价值 ， 因 此 网 络 息 虫 逐渐 演变 成 一 场 网 站 方 与 他 虫 万 的 战争 ， 你 的 矛 长 一 寸 ， 
我 的 盾 便 厚 一 十 。 在 携程 拷 术 微分 享 上 ， 携 程 酒店 研发 部 研 友 经 理 害 广 宇 分 享 过 一 个 “三 月 候 虫 ”的 故事 ， 也 就 是 每 年 的 三 月 份 


会 迎 来 一 个 胞 虫 高 峰 期 。 因 为 有 大 量 的 大 学 生 五 月 份 交 论文 ， 在 写 论文 的 时 候 会 选择 他 取 数 据 ， 也 束 是 3 月 份 候 取 数据 ，4 月 份 
分 析 数 据 ，5 月 份 交 论 文 。 


因此 ， 各 大 互联 网 巨头 也 已 经 开始 调集 资源 来 限制 好 虫 ， 保 护 用 尸 的 流量 和 减少 有 价值 数据 的 流失 。 


2007 年 ， 爱 帮 网 利用 素 直 搜索 技术 获取 了 大 众 点 评 网 上 的 商户 简介 和 消费 者 点 评 ， 并 且 直 接 大 量 使 用 ， 大 众 点 评 网 多 次 要 
求爱 帮 网 停止 使 用 这 些 内 容 ， 而 爱 帮 网 以 目 己 是 使 用 素 直 搜索 获得 的 数据 为 由 ， 拒 绝 停止 抓 取 大 众 点 评 网 上 的 内 容 ， 并 且 质 疑 大 
众 操 评 网 对 这 些 内 容 所 享有 的 著作 权 。 为 此 ， 双 方 开 打 了 两 场 官司 。2011 年 1 月 ， 北 永海 泻 法 阮 做 出 判决 : 爱 帮 网 侵犯 大 众 操 评 
网 和 奢 作 权 成 立 ， 应 当 停 止 侵权 并 赔偿 大 众 点 评 网 经 济 损 失 和 诉讼 必要 支出 。 


2013 年 10 月 ， 百 度 诉 360 违 反 Robots 协 议 。 百 度 方 面 认为 ，360 违 反 了 Robots 协 议 ， 擅 自 抓 取 、 复 制 百度 网 站 内 容 并 生成 
快照 向 用 户 提供 。2014 年 8 月 7 日 ， 北 京 市 第 一 中 级 人 民法 院 做 出 一 审判 决 ， 法 院 认 为 被 告 奇 虎 360 的 行为 违反 了 《上 反 不 正当 竞 
争 法 》 相 关 规 定 ， 应 赔偿 原告 百度 公司 70 万 元 。 


虽然 说 大 众 点 评 上 的 点 评 数 据 、 百 度 知道 的 问答 由 用 户 创 建 而 非 企业 ， 但 是 搭建 平台 需要 投入 运 膏 、 技 术 和 和 人力 成 本 ， 所 以 
平台 拥有 对 数据 的 所 有 权 、 使 用 权 和 分 友 权 。 


叫 


以 上 两 起 败诉 告诉 我 们 ， 在 胞 取 网 站 的 时 候 需 要 限制 目 己 的 代 虫 ， 遵 村 Robots 协 议和 约束 网 络 代 虫 程序 的 速度 ;， 在 使 用 数 
据 的 时 候 必 须 遵 守 网 站 的 知识 产权 。 如 果 违 反 了 这 些 规定 ， 很 可 能 会 吃 官 可， 并且 败诉 的 概率 相当 高 。 


1.3 ”网 络 胞 虫 的 基本 议题 


对 于 网 络 有 他 虫 扩 术 的 学 习 ， 很 少 有 从 整体 结构 来 说 的 ， 多 数 是 直接 放出 某 部 分 代码 。 这 样 的 方法 会 使 网 络 代 虫 的 初学 者 摸 不 
着 头脑 。 束 好 像 是 盲人 摸 象 ， 有 人 | 措 到 的 是 象 腿 ， 以 为 是 一 根 大 柱子 ;有 人 措 到 的 是 大 象 耳 灯 ， 以 为 是 一 把 大 渍 届 。 因 此 ， 人 在 开 
始 编写 第 一 个 肥 虫 之 前 ， 先 从 宕 观 角 度 出 友 襄 清楚 两 个 问题 : 


. Python 拒 虫 的 流程 是 怎样 的 ? 
. 三 个 流程 的 技术 实现 是 什么 ? 


值得 说 明 的 是 ， 本 书 的 网 络 息 虫 选 择 了 Python 3 作为 开 上 语言， 现在 的 Python 最 新 版 为 Python 3.6。 熟 悉 Python 2 的 读者 
可 以 在 本 书 代码 的 基础 上 稍 加 改动 ， 用 Python 2 运行 。 随 着 Python 3 的 发 展 ， 很 多 Python 2 使 用 的 库 和 模块 ，Python 3 都 可 以 
使 用 了 ， 因 此 建议 还 没有 用 过 Python 的 读者 直接 安装 Python 3 进行 学 习 。 


由 于 本 书面 对 的 潜在 学 习 Python 网 络 息 虫 的 读者 多 数 使 用 Windows 操 作 系 统 ， 因 此 本 书 大 部 分 实例 都 是 在 Windows 下 编 
写 和 运行 的 。 如 果 使 用 的 是 Linux 和 Mac OS 操作 系统 ， 在 搭建 好 Python 平 台 之 后 也 可 以 直接 运行 本 书 中 的 代码 。 


1.3.1 Python 把 虫 的 流程 


网 络 爬 虫 的 沅 程 其 实 非 名 简单 ， 主 要 可 以 分 为 三 部 分 : (1) 获取 网 页 ; (2) 解析 网 页 (提取 数据 ) ; (3) 存储 数据 。 


解析 网 页 


获取 了 网 页 (提取 数据 ) 存储 数据 


(1) 获取 网 页 束 是 给 一 个 网 址 友 送 请 求 ， 该 网 址 会 返回 整个 网 页 的 数据 。 类 似 于 在 浏览 器 中 键入 网 址 并 按 回 车 键 , 然 后 可 
以 看 到 网 站 的 整个 页 面 。 


(2) 解析 网 页 束 是 从 整个 网 页 的 数据 中 提取 想 要 的 数据 。 类 似 于 在 浏览 器 中 看 到 网 站 的 整个 页 面 ， 但 是 你 想 找 的 是 产品 的 
价格 ,价格 束 是 你 想 要 的 数据 。 


(3) 存储 数据 也 很 容易 理解 ， 融 是 把 数据 仓储 下 来 。 我 们 可 以 仓储 在 csv 中 ， 也 可 以 存储 在 数据 库 中 。 


1.3.2 三 个 流程 的 技术 实现 
下 面 的 技术 实现 方法 都 是 使 用 Python 语言 实现 的 ， 对 于 Java 等 其 他 语言 本 书 并 不 涉及 。 


1. 获 取 网 页 


获取 网 页 的 基础 技术 : request, urllib#dselenium (模拟 浏览 器 ) 。 获 取 网 页 的 进 阶 技术 : 多 进程 多 线程 抓 取 、 登 录 抓 
取 、 突 破 IP 封 禁 和 服务 器 抓 取 。 


2. 解 析 网 页 
解析 网 页 的 基础 技术 : re 正则 表达 式 、BeautifulSoup 和 Dlxml。 
解析 网 页 的 进 阶 技 术 : 解决 中 文 配 码 。 

3. 仔 储 数据 


人 存储 数据 的 基础 技术 : 和 存 入 txt 文 件 和 人 存 入 csv 文 件 。 存 储 数 据 的 进 阶 技 术 : 存 入 MySQL 数 据 库 和 存 入 MongoDB 数 据 库 。 对 
于 上 述 技术 不 熟悉 的 读者 也 不 必 担 心 ， 本 书 将 会 对 其 中 所 有 的 技术 进行 讲解 ， 力 求 做 到 深入 浅 出 。 
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笔者 是 一 个 喜欢 学 习 的 人 ， 自 学 了 各 方面 的 知识 ， 总 结 发 现 : 学 习 的 动力 来 自 于 兴趣 ， 兴 趣 则 来 自 于 动手 做 出 成 果 的 快乐 。 
因此 ， 笔 者 特意 将 动手 的 乐趣 提前 。 在 第 2 章 ， 读 者 残 可 以 体会 到 通过 完成 一 个 简单 的 Python 网 络 朴 虫 而 市 来 的 乐趣 。 希 刻 这 份 
喜悦 能 让 你 继续 学 习 本 书 的 其 他 内 容 。 


本 章 主 要 介绍 如 何 安装 Python 和 编译 器 Jupyter、Python 的 一 些 基础 语法 以 及 编写 一 个 最 简单 的 Python 网 络 爬 虫 。 


2.1 搭建 Python 平台 


Python 是 一 种 计算 机 程序 语言 ， 由 于 其 简洁 性 、 易 学 性 和 可 扩展 性 ， 已 成 为 最 受 欢 迎 的 程序 语言 之 一 。 在 2016 年 最 受 欢 迎 
的 编程 语言 中 ，Python 已 经 超过 C++ 排 名 第 3 位 。 另 外 ， 由 于 Python 拥 有 强大 而 丰富 的 库 ， 因 此 可 以 用 来 处 理 各 种 工作 。 


在 网 络 胞 虫 领域 ， 由 于 Python 简 单 易学 ， 叉 有 丰富 的 库 可 以 很 好 地 完成 工作 ， 因 此 很 多 人 选择 Python 进 行 网 络 肛 虫 。 


2.1.1 Python 的 安装 


在 笔者 学 习 Python 之 切 ， 安 妆 Python 和 各 种 配置 化 了 近 半 天 的 时 间 ， 为 了 成 功 使 用 Python， 更 是 上 网 但 找 各 种 资料 和 求 
问 各 路 大 神 。 笔 者 常 弟 网 得 ,计算机 的 友 明 为 人 类 市 来 了 如 此 高 的 效率 提升 和 各 种 方便 ,但 是 Python 作 为 一 种 主流 的 编程 语 
言 ， 安 装 起 来 却 是 这 么 不 方便 ， 让 初学 者 学 习 编 程 语言 的 | JES. 


在 笔者 不 断 使 用 Python 进行 数据 挖掘 和 分 析 时 ， 友 现 了 一 个 名 为 Anaconda 的 Python 科学 计算 环境 。 只 需 像 普通 软件 一 样 
安 妆 好 Anaconda， 融 可 以 把 Python 的 环境 变量 、 解 释 器 、 开 友 环 境 等 安 委 在 计算 机 中 。 


除 此 之 外 ，Anaconda 还 提供 了 众多 科学 计算 的 包 ， 如 Numpy、Scipy、Pandas 和 Matplotlib 等 ， 以 及 机 器 学 习 、 生 物 医 
学 和 天 体 物 理学 计算 等 众多 的 包 / 模 块 ， 如 Scikit-Learn、BioPython 等 。 


Python 的 英文 单词 意思 为 “ 蟒 岂 ”， 而 Anaconda 的 英文 单词 意思 为 “南美 洲 的 巨 嵘 ”，Anaconda 不 愧 为 Python 的 好 帮 
手 ， 这 个 工具 可 以 为 我 们 安 半 和 配置 Python 开发 环境 节省 大 量 时 间 和 精力 ， 可 谓 是 初学 者 学 习 Python 的 最 佳 工具 。 

Anaconda 的 安 闪 十 分 简单 ， 只 需 两 步 即 可 完成 。 下 面 将 介绍 在 Windows 下 安装 Anaconda 的 步骤 ， 在 Mac 下 的 安装 方法 
类 似 。 

步骤 01 下 载 Anaconda。 打 开 Anaconda 官 方 网 站 下 载 页 面 https//www.continuum.io/downloads， 下 载 相应 版 本 的 
Anaconda。Python 版 本 选择 3.6， 如 图 2-1 所 示 。 


Download For Windows Download for OSX Download For Linux 


Anaconda 4.3.0 Python 3.6 version 


For Windows 64-BIT INSTALLER (422m) 


Anaconda is 850 licensed which gives you permission to use Anaconda 
commercially and for redistribution- 

42-BIT INSTALLER (348M) 
Changelog 


1. Download the installer 
2, Optional: Verify data integrity with MDS or SHA-256 More l 
ino å Eo Python 2.7 version 
3, Double-click the .eme File to install Anaconda and Follow the 
instructions on the screen 


64-BIT INSTALLER (413m) 
Behind a firewall? Use these zipped Windows installers 


32-BIT INSTALLER (339M) 
图 2-1 选择 下 载 的 Python 版 本 


步骤 02 ”安装 Anaconda。 双 击 打 开 Anaconda 安 六 文件 ， 就 像 安 六 普通 软件 一 样 ， 直 接 单 击 Install 安 六 即 可 。 注 意 ， 在 图 
2-2 所 示 的 对 话 框 中 记得 勾 选 两 个 复 选 框 。 按 照 提 示 操 作 后 ， 就 可 以 安装 好 我 们 需要 的 Python、pip 和 Jupyter 了 。 


“m | jal 


J Anaconda3 4.3.1 (64-bit) Setup 


pr Advanced installation Options 
‘ ) ANACONDA Customize how Anaconda integrates with Windows 


VW) Add Anaconda to my PATH environment variable 

This ensures that PATH is set correctly when using Python, IPython, 
conda, and any other program in the Anaconda distribution. 

If unchecked, then you must use the Anaconda Command Prompt 
(located in the Start Menu under “Anaconda (64-bit)"). 


| Register Anaconda as my default Python 3.6 


This will alow other programs, such as Python Tools for Visual Studo 
PyCharm, Wing IDE, PyDev, and MSI binary packages, to automatically 
detect Anaconda as the primary Python 3.6 on the system. 


R i. ak if 
EU LE, 


图 2-2 3 Anaconda 


2.1.2 使 用 pip 安 委 第 三 万 库 


pip 是 Python 安装 各 种 第 三 方 库 (package) 的 工具 。 


对 于 第 三 方 库 不 太 理 解 的 读者 ， 可 以 将 库 理解 为 供用 户 调 用 的 代码 组 合 。 在 安 委 某 个 库 之 后 ， 可 以 直接 调用 其 中 的 功能 ， 使 


得 我 们 不 用 一 个 代码 一 个 代码 地 实现 某 个 功能 。 这 丈 像 你 需要 为 计算 机 杀毒 时 会 选择 下 载 一 个 杀毒 软件 一 样 ， 而 不 是 上 自己 写 一 个 
毒 


杀毒 软件 ， 直 接 使 用 杀毒 软件 中 的 杀毒 功能 来 杀 


束 可 以 了 。 这 个 比方 中 的 杀毒 软件 束 像 是 第 三 方 库 ， 杀 毒 功能 融 是 第 三 方 库 中 


可 以 实现 的 功能 。 


ja, 


Anaconda 中 已 经 自 带 了 pip， 因 此 不 用 再 自己 安装 配置 pip， 简 直 太 方便 了 。 
在 下 面 的 例子 中 ， 我 们 将 介绍 如 何 用 pip 安 装 第 三 方 库 bs4， 它 可 以 使 用 其 中 的 BeautifulSoup 解 析 网 页 。 


步骤 01 打开 cmd.exe， 在 Windows 中 为 cmd， 在 Mac 中 为 terminal。 在 Windows 中 ，cmd 是 命令 提示 符 ， 输 入 一 些 命令 
cmd.exe 可 以 执行 对 系统 的 管理 。 单 击 “ 开 始 ” 按 钮 ， 在 “搜索 程序 和 文件 ”文本 框 中 输入 cmd 后 按 回 车 键 ， 系 统 会 打开 命 


令 提示 符 窗口 ， 如 图 2-3 所 示 。 在 Mac 中 ， 可 以 直接 在 “应 用 程序 "中 打开 terminal 程 序 。 


| 竹 序 (1) 
BJ cmd.exe 
3244 (21) 


H EERS 


图 2-3 ”搜索 cmd 


步骤 02” 安 闭 bs4 的 Python 库 。 在 cmd 中 键入 pip install bs4 后 按 回 车 键 ， 如 果 出 现 successfully installed， 就 表示 安装 成 


功 I 如 图 2-4 所 示 。 


E EHER: C:\Windows\system32\cmd.exe 


Microsoft Windows [ha 6.1.7600] ee 
版 权 所 有 Cc) 200? Microsoft Corporation, Thee PTR TA 。 


C:WIsers‘\Administrator?>pip install hbs4 
Collecting bs4 
Using cached hs4-0.0.1.tar.gz 
Requirement already satisfied: beautifulsoup4 in c: \prograndata*anaconda3 libssi 
te-packages ‘(from hbhs4) 
Building wheels for collected packages: hbs4 
Running setup.py bdist_wheel for bs4 ... done 
stored in directory: C:\Users‘\AdministratorAppData*s\Local\pip'Cache whee ls 84 
67 \d4\%ebSd?d5adede2Z2eeic hres 775 had f bhb4d67c4f 746f He 4F il 
successfully built hbs4 
Installing collected packages: bs4 
Successfully installed bs4—-@.8.1 


图 2-4 安装 bs4 库 


除了 bs4 这 个 库 ， 之 后 还 会 用 到 requests 库 、Ixml 库 等 其 他 第 三 方 库 ， 帮 助 我 们 更 好 地 进行 网 络 息 虫 。 正 因为 这 些 第 三 方 库 
的 仔 在 ， 才 使 得 Python 在 爬虫 领域 越 来 趣 方 便 、 赵 来 越 活跃 。 


Python 的 编译 器 很 多 ， 有 Notepad++、9Sublime Text 2、Spyder 和 Jupyter。 为 了 方便 大 家 学 习 和 调试 代码 ， 推 荐 使 用 
Anaconda 自 市 的 Jupyter。 下 面 将 介绍 它 的 使 用 方法 。 


过 cmd 打 开 Jupyter。 打 开 cmd， 键 入 jupyter notebook 后 按 回 车 键 ， 浏 览 器 启动 Jupyter 主 界面 ， 地 址 默认 
为 ， 如 图 2-5 所 示 。 


me lem: C:\Windows\system32\cmd.exe Júpiter noteboo |= Dae So 


Microsoft Windows [he 本 6.1.7600] 
Ray 所 有 cc) 2009 Microsoft Corporation. (7 ES Brag AY Fil 。 


-Wisers Administrator? jupyter notebook 
[I 69:49:37.638 NotebookApp!] Serving notebooks from local directory: GC: WUsers‘Ad 
ministrator 
LI 09:49:37.638 NotebookApp!] A active kernels 
[I 09:49:37.638 MNotebookfApp] The Jupyter Notebook is running at: http://localhos' 
t 8888/7? token = do 2e 259530582 bbadad 7 Zab P4db6f 795 S3F PAPI dF b6adsebF2 


LI 69:49:37.638 MotebookApp!] Use Control-C to stop this server and shut down all 
kernels Ctwice to skip confirmation>. 
LC 69:49:37.638 MotebookApp] 


Copy/paste this URL into your browser when you connect for the first time. 
to login with a token: 
http: //localhost :88887/7token=d9d52e25953058206a4a472a894d6f ?953f Pde edfod 
se6f 2 
[I 09:49:48 .464 NotebookfApp!] Accepting one-time-token—authenticated connection f 
rom :=1 


图 2-5 ”启动 Jupytet 的 主 界 面 


步骤 02 ”创建 Python 文件 。 选 择 相 应 的 文件 夹 ， 单 击 右上 角 的 New 按 钮 ， 从 下 拉 列 表 中 选择 Python 3 作为 希望 启动 的 
Notebook 类 型 ， 如 图 2-6 所 示 。 


£ jupyter 


Files Running “Jusi 
select items to perform actions on them. 


Text File 


Folder 


图 2-6 ”选择 Python 3 
步骤 03 ”在 新 创建 的 文件 中 编写 Python 程序 。 键 入 print (‘hello world!') 后 ， 可 以 按 Alt+Enter 快 捷 键 执行 刚刚 的 代码 ， 


结果 如 图 2-7 所 示 。 


te jupyter Untitled (autosaved) 
Edit View nsert Cell 


CellToolbar 


print (hello world!’ 


hello world! 


图 2-7 ”编写 Python 程序 
为 什么 推荐 大 家 使 用 Jupyter 学 习 和 编写 Python 脚本 呢 ? 


Jupyter 的 强大 之 处 在 于 交互 式 编程 和 展示 功能 。 首 先是 交互 式 编程 ， 你 可 以 把 代码 分 成 几 段 来 执行 ， 在 代码 编写 和 测试 阶 
段 可 以 边 看 边 写 ， 这 样 可 以 加 快 调试 代码 的 速度 。 其 次 是 展示 ，Jupyter 能 够 把 运行 和 输出 的 结果 保存 下 来 ， 下 次 打开 这 个 
Notebook 时 也 可 以 看 到 之 前 运行 的 结果 。 除 了 可 以 编写 代码 外 ，Jupyter 还 可 以 添加 各 种 元 素 ， 比 如 图 片 、 视 频 、 链 接 等 ， 同 
时 还 支持 Markdown， 可 以 充当 PPT 使 用 。 


如 果 要 详细 了 解 有 关 如 何 更 好 地 使 用 Jupyter 的 话题 ， 可 以 使 用 菜单 栏 右 侧 的 帮助 菜单 。 


2.2 ”Python 使 用 入 |] 


本 主要 介绍 Python 的 一 些 基 础 语法 。 如 果 你 已 经 学 会 使 用 Python ， 可 以 跳 过 这 一 节 ， 直 接 开始 编写 第 一 个 Python 网 络 
TER. 


2.2.2 ”数据 类 型 


Python 是 面向 对 象 (object oriented) 的 一 种 语言 ， 并 不 需要 在 使 用 之 前 声明 需要 使 用 的 变量 和 类 别 。 下 面 将 介绍 Python 
的 4 种 数据 类 型 。 


1.48 (string) 


字符 串 是 最 常见 的 数据 类 型 ,一 般 用 来 存储 类 似 “ 句 子 ”的 数据 ， 并 放 在 单 引 号 (') 或 双 引 号 (") 中 。 如 果 要 连接 字符 
串 ， 那 么 可 以 简单 地 加 起 来 。 


2. 数 字 (Number) 


数字 用 来 存储 数值 ， 包 含 两 种 常用 的 数字 类 型 : 整数 (int) 和 浮 点 数 (float) ， 其 中 浮 点 数 由 整数 和 人 小数 部 分 组 成 。 两 种 
类 型 之 间 可 以 相互 转换 ， 如 果 要 将 整数 转换 为 浮 点 数 ， 就 在 变量 前 加 上 float; 如 果 要 将 浮 点 数 转 换 为 整数 ， 就 在 变量 前 加 上 
int， 例 如 : 


还 有 其 他 两 种 复杂 的 数据 类 型 ， 即 长 整数 和 复数 ， 由 于 不 常用 到 ， 感 兴趣 的 读者 可 以 自己 学 习 。 
3. 列 表 (list) 


如 果 需 要 把 上 述 字符 串 和 数字 宫 括 起 来 ， 就 可 以 使 用 列表 。 人 列表 能 够 包含 任意 种 类 的 数据 类 型 和 任意 数量 。 创 建 列 表 非 常 容 
吻 ， 只 要 把 不 同 的 变量 放 入 方 括号 中 ， 并 用 逗号 分 隔 即 可 ， 例 如 : 


怎么 访问 列表 中 的 值 呢 ?可 以 在 万 括 号 中 标明 相应 的 位 置 夫 引进 行 访问 ， 与 一 般 认 知 不 一 样 的 是 ， 这 引 从 0 开始 ， 例 如 : 


如 何 修改 列表 中 的 值 呢 ?可 以 直接 为 列表 中 的 相应 位 置 赋予 一 个 新 值 ， 例 如 : 


4. 字 上 典 (Dictionaries) 


字典 是 一 种 可 变 容器 异型， 正如 其 名 ， 字 典 含有 “ 字 ” (直译 为 键 值 ，key) 和 值 (value) ， 使 用 字典 就 像 是 自己 创建 一 
个 字典 和 碍 字典 。 每 个 仓储 的 值 都 对 应 着 一 个 键 值 key，Kkey 必 须 唯一 ， 但 是 值 不 用 。 值 也 可 以 取 任 何 数据 类 型 ， 例 如 


如 何人 遍历 访问 字典 中 的 每 一 个 值 呢 ? 这 里 需要 用 到 字典 和 循环 的 结合 ， 例 如 : 


2.2.3 ”条件 语 句 和 循环 语句 


条 件 语 句 可 以 使 得 当 满 足 条 件 的 时 候 才 执行 肝 部 分 代码 。 条 件 为 布尔 值 ， 也 融 是 只 有 True 和 False 两 个 值 。 当 if 齐 j 断 条 件 成 
立时 才 执 行 后 面 的 语句 ; 当 条 件 不 成 立 的 时 候 ， 执 行 else 后 面 的 语句 ， 例 如 : 


如 果 需 要 判断 的 有 多 种 条 件 ， 束 需要 用 到 elif， 例 如 : 


循环 语句 能 让 我 们 执行 一 个 代码 片段 多 次 ,循环 分 为 for 循 环 和 while 循 环 。 


for 循 环 能 在 一 个 给 定 的 顺序 下 重复 执行 ， 例 如 : 


while 循 环 能 不 断 重 复 执 行 ， 只 要 能 满足 一 定 条 件 ， 例 如 : 


2.24 BŽ 


在 代码 很 少 的 时 候 ， 我 们 按照 逻辑 写 完 束 能够 很 好 地 运行 。 但 是 如 果 代码 变 得 庞大 复杂 起 来 ， 残 需要 上 自己 定 义 一 些 轴 数 


(Functions) 把 代码 切 分 成 一 个 个 万 块 ， 使 得 代码 易 读 ， 可 以 重复 使 用 ， 并 且 容 易 调整 顺序 。 


一 个 冰 数 包括 输入 参数 和 输出 参数 ，Python 的 函数 功能 可 以 用 y=x+ 1 的 数学 阔 数 来 理解 ， 在 输入 Xx=2 的 参数 时 ，y 输 出 3。 
但 是 在 实际 情况 中 ， 某 些 立 数 输入 和 输出 参数 可 以 不 用 指明 。 下 面 定义 一 个 尔 数 : 


参数 必须 要 正确 地 写 入 函数 中 ， 阔 数 的 参数 也 可 以 为 多 个 ， 例 如 


2.2.5 ”面向 对 象 编程 
在 介绍 面向 对 象 编程 之 前 先 说 明 面向 过 程 编程 。 面 向 过 程 编程 的 意思 是 根据 业务 逻辑 从 上 到 下 写 代 码 ， 这 个 最 容易 被 初学 者 
接受 ， 按 照 逻 辑 需要 用 到 哪 段 代码 写 下 来 即 可 。 


随 着 时 间 的 推移 ， 在 编程 的 方式 上 又 发 展 出 了 为 数 式 编程 ， 把 采 些 功能 封装 到 函数 中 ， 需 要 用 时 可 以 直接 调用 ， 不 用 重复 撰 
写 。 妆 数 陈 的 编程 方法 节省 了 大 量 时 间 。 


随 着 时 间 的 推移 ， 又 出 现 了 面向 对 象 编程 。 面 向 对 象 编程 是 把 六 数 进行 分 类 和 封装 后 放 入 对 象 中 ， 使 得 开发 更 快 、 更 强 ， 例 
如 : 


看 到 这 里 ， 也 许 你 有 疑问 ， 要 实现 上 述 代码 的 结果 ， 使 用 阔 数 式 编程 不 是 比 面 癌 对 象 编程 更 简单 吗 ” 例 如 ， 如 果 我 们 使 用 函 
数 式 编程 ， 可 以 写成 : 


此 处 确实 是 晃 数 式 编程 更 容易 。 使 用 消 数 式 编程 ， 我 们 只 需要 写 清楚 输入 和 输出 变量 并 执行 浮 数 即 可 ， 而 使 用 面向 对 象 的 编 
程 万 法 ， 首 先 要 创建 封装 对 象 ， 然 后 还 要 通过 对 象 调用 被 封 闪 的 内 容 ， 岂 不 是 很 奈 烦 ? 


但 是 ， 在 某 些 应 用 场景 下 ， 面 向 对 铺 编 程 能 够 显示 出 更 大 的 优势 。 


如 何 选择 函数 陈 编 程 和 面向 对 象 编程 呢 ” 可 以 这 样 进 行 选择 ， 如 果 各 个 函数 之 间 独 立 且 无 共用 的 数据 ， 融 选用 函数 陈 编程 ; 
如 果 各 个 函数 之 间 有 一 定 的 关联 性 ， 那 么 选用 面向 对 象 编程 比较 好 。 


下 面 简单 介绍 面向 对 象 的 两 大 特性 : 封装 和 继承 。 


1. 封 装 


Hi 


封 委 ， 顾 名 思 义 残 是 把 内 容 封 妆 好， 再 调用 封 疼 好 的 内 容 。 封 半分 为 两 步 : 
第 一 步 为 封 六 内 容 。 
第 二 步 为 调用 被 封 闪 的 内 容 。 


(1) HRAS 


下 面 为 封 委 内 容 的 示例 。 


self 在 这 里 只 是 一 个 形式 参数 ， 当 执行 obj1=Person(santos,18) 时 ，self 等 于 obj1， 此 处 将 santos 和 18 分 别 封装 到 obj1 及 
self 的 name 和 age 属性 中 。 结 果 是 obj1 有 name 和 age 属性 ， 其 中 name= "santos"，age=18。 


(2) 调用 被 封装 的 内 容 调用 被 封装 的 内 容 时 有 两 种 方式 : 通过 对 象 直接 调用 和 通过 self 间 接 调用 。 通 过 对 象 直接 调用 obj1 
对 象 的 name 和 age 属性 ， 代 码 如 下 : 


通过 self 间 接 调用 时 ，Python 默 认 会 将 obj1 传 给 self 参 数 ， 即 obj1.detail(obj1)。 此 时 方法 内 部 的 self=obj1， 即 
self.name='santos'，self.age=18， 代 人 码 如 下 : 


上 述 例子 定义 了 一 个 Person 的 类 。 在 这 个 类 中 ， 可 以 通过 各 种 函数 定义 Person 的 各 种 行为 和 特性 ， 要 让 代码 显得 更 加 清晰 
有 效 ， 束 要 在 调用 Person 类 各 种 行为 的 时 候 也 可 以 随时 提取 。 这 比 仅 使 用 水 数 式 编程 更 加 方便 。 


综 上 所 述 ， 对 于 面向 对 象 的 封 委 来 襄 ， 其 实 融 是 使 用 构造 方法 将 内 容 封 委 到 对 象 中 ， 然 后 通过 对 象 直接 或 self 间 接 获 取 航 封 


NAB. 


2. 继 承 


继承 是 以 普通 的 类 为 基础 建立 专门 的 类 对 象 。 面 向 对 象 编程 的 继承 和 现实 中 的 继承 类 似 ， 子 继承 了 父 的 某 些 特性 ， 例 如 : 


猫 可 以 : ARA., OZ. Ms. H Ha 


狗 可 以 : 汪汪 叫 、 吃 、 喝 、 拉 、 撤 


如 果 我 们 要 分 别 为 独 和 狗 创建 一 个 类 ， 融 需要 为 独 和 狗 实 现 他 们 所 有 的 功能 ， 代 码 如 下 : 


从 上 述 代码 不 难看 出 ， 吧 、 喝 、 拉 、 投 是 猎狗 共同 的 特性 ， 我 们 没有 必要 在 代码 中 重复 编写 。 如 果 用 继承 的 思想 ， 融 可 以 写 


动物 : 吃喝 拉 撤 
猫 : UDG ( 猫 继承 动物 的 功能 


狗 : 汪汪 叫 ( 狗 继 承 动物 的 功能 


对 于 继承 来 况 ， 其 实 融 是 将 多 个 类 共有 的 万 法 提取 到 父 关 中 ， 子 类 继承 父 类 中 的 万 法 即 可 ， 不 必 一 一 实现 每 个 万 法 。 


2.3 ”编写 第 一 个 简单 的 聆 虫 


当 你 了 解 了 Python 的 基础 语法 后 ， 融 算 你 是 编程 小 日 ， 也 可 以 轻松 礁 取 一 些 网 站 了 。 


为 了 万 便 大 家 练习 Python 网 络 季 虫 ， 笔 者 专门 搭建 了 一 个 博客 网 站 用 于 有 拒 虫 的 教学 ， 本 书 教学 部 分 的 他 虫 全 部 基于 乳 取 笔 
者 的 个 人 博客 网 站 (www.santostang.com) 。 一 方面 ， 由 于 这 个 网 站 的 设计 和 框架 不 会 更 改 ， 因 此 本 书 的 网 络 息 虫 代码 可 以 
一 直 使 用 ;， 另 一 方面 ， 由 于 这 个 网 站 由 笔者 拥有 ， 因 此 避免 了 一 些 法 律 上 的 风险 。 


下 面 以 胞 取 笔 者 的 个 人 博客 网 站 为 例 获取 第 一 篇 文章 的 标题 名 称 ， 教 大 家 学 会 一 个 简单 的 他 虫 。 


2.3.1 第 一 步 : 获取 页 面 


上 述 代码 获取 了 博客 首页 的 HTML 人 代码。 首先 import requests， 使 用 requests.get(link,headers=headers) 获 取 网 页 。 值 得 
注意 的 是 : 


(1) 用 requests 的 headers 伪 装 成 浏览 器 访问 。 
(2) (是 requests 的 Response 回 复 对 象 ， 我 们 从 中 可 以 获取 想 要 的 信息 。rtext 是 获取 的 网 页 内 容 代码 。 
运行 上 述 代码 得 到 的 结果 如 图 2-8 所 示 。 
<!DOCTYPE html> 


<meta charset="UTF-8* > 

<meta http-equiv="X-UA-Compatible” content=" IE=edge”> 

<meta name=“viewport” content=“width=device-width, initial-scale=1, maximum-scale=1"> 

“title> 大 数据 分 析 @ 唐 松 <7titley> 

<meta name= “description” content=" BRA) ABE, A Python 网 络 肥 虫 的 思考 。” > 

<meta name= keywords” content= "EH, Santos, H” 

<link rel=“shortcut icon” href="http: //www. Moi A com/wp-content/themes/SongStyle-Two/images/favicon. ico” type= image/x-icon /> 
<link rel="stylesheet” href=“http: //www. santostang. com/wp-content/themes/SongStyle-Two/css/bootstrap. min. css > 

<link rel="stylesheet” href=“http: //www. santostang. com/wp-content/themes/SongStyle-Two/css/font-awesome. min. css > 

<script type=" text/javascript” src="http: //www. santostang. com/wp-content/themes/SongStyle-Two/js/ jquery. min. js ></script> 
<script type=" text/javascript” src=“http://www. santostang. com/wp-content/themes/SongStyle-Two/js/bootstrap. min. js ></script> 
<link rel="stylesheet” href=“http: //www. santostang. com/wp-content/themes/SongStyle-Two/style. css’ > 


图 2-8 获取 页 面 


2.3.2 ”第 二 步 : 提取 需要 的 数据 


在 获取 整个 页 面 的 HTML 代 码 后 ， 我 们 需要 从 整个 网 页 中 提取 第 一 篇 文章 的 标题 。 


这 里 用 到 BeautifulSoup 这 个 库 对 拒 下 来 的 页 面 进行 解析 。 首 先 需 要 导入 这 个 库 ， 然 后 把 HTML 代 码 转 化 为 soup 对 象 ， 接 下 
来 用 soup.find("h1",class ="post-title").a.text.strip(0) 得 到 第 一 篇 文章 的 标题 ， 并 且 打 印 出 来 。 


对 初学 者 来 说 ， 使 用 BeautifulSoup 从 网 页 中 提取 需要 的 数据 更 加 简单 易 用 。 
那么 ， 我 们 怎么 从 那么 长 的 代码 中 准确 找到 标题 的 位 置 呢 ? 
这 里 就 要 隆重 介绍 Chrome 浏 览 器 的 “检查 (审查 元 素 ) ”功能 了 。 下 面 介绍 找到 需要 元 素 的 步骤 。 


步骤 01 使 用 Chrome 浏 览 器 打开 博客 首页 www.santostang.com。 右 击 网 页 页 面 ， 在 弹出 的 快捷 菜单 中 单 击 “ 检 查 ” 命 令 ， 如 
图 2-9 所 示 。 
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步骤 02 ”出 现 如 图 2-10 所 示 的 审查 元 素 页 面 。 单 击 元 上 角 的 鼠标 键 按钮 ， 然 后 在 页 面 上 单 击 想 要 的 数据 ， 下 面 的 Elements 
会 出 现 相 应 的 code 所 在 的 地 方 ， 束 定位 到 想 要 的 元 素 了 。 


“03H07h SAMESH ”名 没有 评论 ® 
大 数据 @ 唐 松 本 文 首发 于 C5DN ， 当 年 ， 也 就 是 2014 年 ， 我 还 是 在 大 四 的 最 后 一 个 暑假 ， 在 EMC 
Santos =], Ħ acharts 做 一 个 可 视 化 的 工具 。 在 一 个 页 面 只 是 一 个 图 表 很 简单 ， 如 果 要 在 一 
= eh In ae 面 中 添加 多 张 图 的 话 ， 怎 么 办 呢 ? 


A Elements Console Sources Network Timeline Profiles Application Security Audits Adblock Plus 
P ¿div class="avatar">..</div> 
¿h3 id="name" >; ARa Santos:/h3> 
* ¿div class="sns">..¢/div> 
Pediv class="nav" »..¢/div> 
¢/header> 
¥ <div id="main"> 
F ¿div class="row box"> 
: :before 
F ¿div class="col-md-8"> 
Warticle class="article-list-1 clearfix"> 
:: before 
¥ ¿header class="clearfix"> 


步骤 03 ”在 代码 中 找到 标 监 色 的 地 方 ， 为 <h1class= "postrtitle"> <a>echarts 学 习 笔记 (2)- 同 一 页 面 多 图 表 </a> 。 我 们 可 
以 用 soup.find("h1",class = "post-title").a.text.strip( 提 取 设 博文 的 标题 。 


2.3.3 BoD: THESU 


存储 到 本 地 的 txt 文 件 非 常 简单 ， 在 第 二 步 的 基础 上 加 上 3 行 代码 就 可 以 把 这 个 字符 串 保存 在 text 中 ， 并 存储 到 本 地 。txt 文 件 
地 址 应 该 和 你 的 Python 文 件 放 在 同一 个 文件 夹 。 


返回 文件 夹 ， 打 开 title.txt 文 件 ， 其 中 的 内 容 如 图 2-11 所 示 。 


Ol title-bet - 记事 本 
WPA SSE) TEILO) Bev) ”帮助 {H) 
bcharts= #12 — 同一 页 面 和 区 图 表 


图 2-11 查看 保存 的 文件 


2.4 Python 实践 : 基础 巩固 


SSCA, oc NERGI Fa, BRED SMAMRH LACE PBARME? AA, Python[eRAT ial 
单 ， 但 是 一 步 步 深入 学 习 后 ， 你 会 友 现 坑 越 来 越 多 。 只 有 认真 阅读 、 反 复 练 习 ， 才 能 熟 能 生 15。 


为 了 巩固 Python 网 络 乳 虫 的 基础 ， 在 第 2 草 ~ 第 6 草 的 结尾 都 提供 了 一 个 实践 项 目 。 提 供 这 些 实践 项 目的 目的 是 希望 帮助 读 
者 从 实 跤 中 检验 目 己 学 习 了 多 少 知 识 ， 还 可 以 进一步 巩固 之 前 在 该 章节 中 学 习 的 知识 。 这 些 实践 项 目 都 会 把 完整 代码 写 在 书 中 ， 
想 直 接 获 取代 码 的 读者 也 可 以 从 本 书 配 书 资 源 的 下 载 地 址 下 载 。 除 此 之 外 ， 章 未 还 提供 了 一 个 进 阶 问题 供 感 兴 趣 的 读者 思考 。 


如 果 你 是 一 个 编程 新 手 ， 在 进一步 学 习 Python 编 程 之 前 需要 记得 以 下 3 操 : 


(1) 实践 是 最 快 的 学 习 方 式 。 如 果 你 打算 通过 阅读 本 书 而 学 会 Python 有 息 虫 ， 殊 算 读 上 100 毅 可 能 也 不 会 达到 很 好 的 效果 ， 
RAMEN DARE: 手 输 人 代码， 反复 练习 。 这 也 是 为 什么 本 书 均 通 过 项 目 案例 来 讲解 Python 网 络 季 虫 的 原因 。 


(2) 搜索 引擎 是 最 好 的 老师 。 如 果 遇 到 不 明白 的 问题 ， 请 学 会 使 用 百度 或 合 歌 引 擎 搜索 。 束 笔者 自己 的 体验 而 言 ， 合 歌 的 
有 效 信息 检索 速度 比特 度 快 ， 最 新 最 好 的 回答 很 有 可 能 是 英文 的 ， 但 是 如 果 你 的 英文 阅读 能 力 不 行 ， 就 另 当 别论 了 。 记 得 使 用 谷 
歌 搜索 时 ， 找 到 stack Overflow 网 站 上 的 回答 可 以 非常 快 地 解决 你 的 问题 。 


SN 
m 


(3) ATEST. MIAR. Se. RR T AHRENSI, RAH. RAB HAAN 
RE, HANES., AEAEE, ARERIA. ANAK KAR, MRAR. 

本 草 实践 的 项 目 主要 是 帮助 Python 的 初学 者 巩固 之 前 学 过 的 知识 ， 如 果 你 已 经 对 Python 有 所 了 解 ， 可 以 跳 过 以 下 部 分 。 为 
了 达到 最 好 的 效果 ， 请 先 目 行 完成 下 面 的 题目 。 每 一 题 后 面 都 会 提供 答案 ， 这 些 管 案 并 不 是 唯一 解 ， 也 不 是 让 你 不 思考 直接 复 
制 、 粘 贴 运行 的 ， 而 是 用 来 对 比 思 路 ， 巩 固 Python 基础 内 容 的 。 


2.4.3 ”自我 实践 题 


读者 若 有 时 间 ， 可 以 从 W3school 的 Python 100 例 中 学 习 Python 的 各 种 应 用 基础 知识 ， 网 址 
是 : https://www.w3cschool.cn/python/python-100-examples.html, 


第 3 章 ”静态 网 页 抓 取 


在 网 站 设计 中 ， 纯 粹 HTML 格 式 的 网 页 通 弟 被 称 为 静态 网 页 ， 早 期 的 网 站 一 般 都 是 由 静态 网 页 制作 的 。 在 网 络 聆 虫 中 ， 静 态 
网 页 的 数据 比较 容易 获取 ， 因 为 所 有 数据 都 呈现 在 网 页 的 HTML 代 码 中 。 相 对 而 言 ， 使 用 AJAX 动 态 加 载 网 页 的 数据 不 一 定 会 
现在 HTML 代 码 中 ， 这 融 给 爬虫 增加 了 困难 。 本 章 先 从 简单 的 静态 网 页 抓 取 开始 介绍 ， 第 4 章 再 介绍 动态 网 页 抓 取 。 


在 静态 网 页 抓 取 中 ， 有 一 个 强大 的 Requests 库 能 够 让 你 轻易 地 发 送 HTTP 请 求 ， 这 个 库 功 能 完善 ， 而 且 操 作 非 常 简 单 。 本 章 
首先 介绍 如 何 安 闻 Redquests 库 ， 然 后 介绍 如 何 使 用 Requests 库 获取 响应 内 容 ， 最 后 可 以 通过 定制 Requests 的 一 些 参数 来 满足 我 
们 的 需求 。 


3.1 2#Requests 


Redquests 库 可 以 通过 pip 安 装 。 打 开 cmd 或 terminal， 键 入 : 


就 安装 完成 了 。 


3.2 ”获取 响 应 内 容 


在 Requests 中 ， 最 弟 用 的 功能 是 获取 某 个 网 页 的 内 容 。 现 在 我 们 使 用 Requests 获 取 个 人 博客 主页 的 内 容 。 


这 样 束 返回 了 一 个 名 为 r 的 response 响 应 对 销 ， 其 存储 了 服务 器 咽 应 的 内 容 ， 我 们 可 以 从 中 获取 需要 的 信息 。 上 述 代码 的 结 
果 如 图 3-1 所 示 。 


文本 编码 : TIF-8 
中 应 状态 码 ， 200 
FITRA ARIER: <!DOCTYPE html> 


“html lang=" zh-CN" > 
<head>? 
<meta charset= UTF-8 > 


图 3-1 显示 获取 的 信息 
上 例 的 说 明 如 下 : 
(1) rtext 是 服务 器 响应 的 内 容 ， 会 自动 根据 响应 头 部 的 字符 编码 进行 解码 。 
(2) rencoding 是 服务 器 内 容 使 用 的 文本 编码 。 


(3) rstatus code 用 于 检测 响应 的 状态 码 ， 如 果 返 回 200， 就 表示 请 求 成 功 了 ; 如 果 返 回 的 是 4xx， 就 表示 客户 端 错误 ; 返 
回 5xx 则 表示 服务 器 错误 响应 。 我 们 可 以 用 r.status_ code 来 检测 请 求 是 人 否 正确 响应 。 


(4) r.content 是 字 市 方式 的 咱 应 体 ， 会 自动 解码 gzip 和 deflate 编 码 的 响应 数据 。 


(5) rjson0 是 Requests 中 内 置 的 JSON 解 码 器 。 


3.3 ”定制 Requests 


在 3.2 节 中 ， 我 们 使 用 Requests 库 获取 了 网 页 数据 ， 但 是 有 些 网 页 需要 对 Requests 的 参数 进行 设置 才能 获取 需要 的 数据 ， 这 
包括 传递 URL 参 数 、 定 制 请 求 头 、 友 运 POST 请 求 、 设 置 超时 等 。 


3.3.1 {BURLEY 


为 了 请 求 特定 的 数据 ， 我 们 需要 在 URL 的 查询 字符 串 中 加 入 某 些 数据 。 如 果 你 是 自己 构建 URL， 那 么 数据 一 般 会 跟 在 一 个 问 
号 后 面 ， 并 且 以 键 / 值 的 形式 放 在 URL 中 ， 如 http://httpbin.org/get?key1=valuel1。 


在 Requests 中 ， 你 可 以 直接 把 这 些 参数 保存 在 字典 中 ， 用 params 构 建 至 URL 中 。 例 如 ,传递 key1=value1 和 key2=value2 
到 http://httpbin.org/get， 可 以 这 样 编写 


通过 上 述 代码 的 输出 结果 可 以 上 友 现 URL 已 经 正确 编码 : URL 已 经 正确 编码 : http://httpbin.org/get? 
key1=value1&key2=value2 


字符 串 方 式 的 响应 体 : 


3.3.2 ”定制 请 求 头 
请 求 头 Headers 提 供 了 关于 请 求 、 响 应 或 其 他 发 送 实 体 的 信息 。 对 于 有 拒 虫 而 言 ， 请 求 头 十 分 重要 ， 尽 管 在 上 一 个 示例 中 并 没 
有 制定 请 求 头 。 如 果 没 有 指定 请 求 头 或 请 求 的 请 求 头 和 实际 网 页 不 一 致 ， 融 可 能 无 法 返回 正确 的 结果 。 


Requests 并 不 会 基于 定制 的 请 求 头 Headers 的 具体 情况 改变 自己 的 行为 ， 只 是 企 最 后 的 请 求 中 ， 所 有 的 请 求 头 信息 都 会 家 
传递 进去 。 


那么 ， 我 们 如 何 找到 正确 的 Headers 呢 ? 


还 是 用 到 第 2 章 提 到 过 的 Chrome 浏 览 器 的 “检查 ”命令 。 使 用 Chrome 浏 览 器 打开 要 请 求 的 网 页 ， 右 击 网 页 的 任意 位 置 ， 
在 弹出 的 快捷 荣 单 中 单 击 “检查 ”命令 。 


如 图 3-2 所 示 ， 在 随后 打开 的 页 面 中 单 击 Network 选 项 。 


ents 


Elem 
Ek y 


Regex 


如 图 3-3 所 示 ， 在 左 侧 的 资源 中 找到 需要 请 求 的 网 页 ， 本 例 为 www.santostang.com。 


可 以 看 到 Requests Headers 的 详细 信息 。 


Name 
www.santostang.com 

_ | font-awesome.min.css 

“| bootstrap.min.css 

-| bootstrap.min,js 
style.css 
crayon.min.css?ver 

_ | jquery.mings 
classic.css?vet 

-| monaco.css?ver 
font-awesome.m 
style.min.css?ver 
si_captcha,js?v 


avatar.jpg > 


7 requests | 25.4 KB transferred | Finish: 12.83 s | DOMContentLoad... 


图 3-3 
因此 ， 我 们 可 以 看 到 请 求 头 的 信息 为 : 
GET/HTTP/1.1 
Host: www.santostang.com 
Connection: keep-alive 


Upgrade-Insecure-Requests: 1 


User-Agent: Mozilla/5.0 (Windows NT 6.1; 


(KHTML, 
Accept: 


text/html, application/xhtml+xml, 


gzip, deflate, sdch 


application/xml; 


Timeline Profiles 
rie i E rO IES 


Network 


Application 


Presen 


re log 


Hide data URLs PT 


图 3-2 ” 单 击 Netwoftk 选 项 


单 击 需要 请 求 的 网 页 ， 在 Headers 中 


Connection: Keep-Alive 
charset=UTF-8 
15:37:09 GMT 


max=99 


Content-Type: text/html; 
Date: Tue, 87 M 2017 
ADE A Alive: timeout=5, 
Link: <http: //www 


Server: Apache 


. santostang.com/wp- json 


Transfer-Encoding: chunked 
X-Powered-By: PHP/5.6.30 


Y Request Headers 


Accept: text/html,application/xh 


tml+xml,application/xml;: 
Accept-Encoding: gzip, deflate, sdch 

Accept-Language: en-US, en;q=@.8,zn-CN; q=8.6,zn;q=0.4,zn-TW 
Cache-Controk max-age=0 
Connection: keep-alive 
Host: www 


Upgrade-Insecure- | 1 


. Santostang. com 


User-Agent: Mozilla/5.@ (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like 


找到 需要 请 求 网 页 的 头 信息 


WOW64) AppleWebKit/537.36 


like Gecko) Chrome/57.0.2987.98Safari/537.36 


q=0.9, image/webp, */*; q=0.8Accept-Encoding: 


Accept-Language: en-US, en; q=0.8, zh-CN; g=0.6, zh; q=0.4, zh-TW; q=0.2 


提取 请 求 头 中 重要 的 部 分 ， 可 以 把 代码 改 为 : 


3.3.3 AGEPOSTIaxK 


除了 GET 请 求 外 ， 有 时 还 需要 友 送 一 些 编码 为 表单 形式 的 数据 ， 如 在 登录 的 时 候 请 求 束 为 POST， 因 为 如 果 用 GET 请 求 ， 密 
码 束 会 显示 在 URL 中 ， 这 是 非常 不 安全 的 。 如 果 要 实现 POST 请 求 ， 只 需要 简单 地 传递 一 个 字典 给 Requests 中 的 data 参 数 ， 这 个 
数据 字典 就 会 在 发 出 请 求 的 时 候 自 动 编码 为 表单 形式 。 


输出 的 结果 为 : 
"args": {}, 
"data": nn 


"form": { 
"keyl": "valuel", 
"key2": "value2" 
hs 


j 


可 以 看 到 ，form 变 量 的 值 为 key _dict 输 入 的 值 ， 这 样 一 个 POST 请 求 融 友 送 成 功 了 。 


3.3.4 超时 


有 时 疏 虫 会 遇 到 服务 器 长 时 间 不 返回 ， 这 时 怜 虫 程序 残 会 一 直 等 待 ， 造 成 聆 虫 程序 没有 顺利 地 执行 。 因 此 ， 可 以 用 


Requests 在 timeout 参 数 设 定 的 秒 数 结束 之 后 停止 等 待 响 应 。 意 思 就 是 ， 如 果 服 务 器 在 timeout 秒 内 没有 应 答 ， 就 返回 异常 。 


我 们 把 这 个 秒 数 设 置 为 0.001 秒 ， 看 看 会 抛 出 什么 异常 。 这 是 为 了 让 大 家 体验 timeout 异 党 的 效果 而 设置 的 值 ， 一 般 会 把 这 
个 值 设置 为 20 秒 。 


import requests 
link = "http://www.santostang.com/" 
r = requests.get(link, timeout= 0.001) 


返回 的 异常 为 : ConnectTimeout:HTTPConnectionPool(host='www.santostang.com’,port=80):Max retries exceeded 
with url:/(Caused by ConnectTimeoutError(<requests.packages.urllib3.connection.HTTPConnection object at 


0x0000000005B85B00>,'Connection to www.santostang.com timed out.(connect timeout=0.001)')), 


异常 值 的 意思 是 ， 时 间 限 制 在 0.001 秒 内 ， 连 接 到 地 址 为 www.santostang.com 的 时 间 已 到 。 


3.4 Reduests 爬 虫 实践 : TOP250 电 影 数据 


本 章 实 践 项 目的 目的 是 获取 豆 淮 电 影 TOP250 的 所 有 电影 的 名 称 ， 网 页 地 址 为 : https://movie.douban.com/top250, 在 
此 拒 虫 中 ， 将 请 求 头 定制 为 实际 浏览 器 的 请 求 头 。 


3.4.1 网 站 分 析 


打开 有 辟 泊 电影 TOP250 的 网 站 ， 使 用 “检查 ”功能 查看 该 网 页 的 请 求 涉 ， 如 图 3-4 所 示 。 


= 上 | mame FM Em mw i FRoRS re 


> | Readers Preview Respons 
| F Regiis Hee ae bers, 
Accept text/html ,scolicetionsshtel=<xml, apolicstions‘amljg=8.9, image/webp,*)"sq=0.8 
Accept-Encoding: grip, deflate, sdch, or 
Accept-Lamquage: en-U6,en,9q-0.8, hh 
Cache-Control sax-age=8 
Connection: keeo-slive 
=F _ ute aa Ee n Ls Sara 
j. 14965554309. 1. 1.utmcsr={diract} |u 


16556338: 了 七 rc 开工 了 


Host movie. dban. cas 


Lipgrade-Insecure-Requeests: 1 


User-Agent: Hozillars. e (Windows WT 6,1) WowWee) A 


图 3-4 ” 豆 准 电影 TOP250 的 网 站 


按照 3.3.2 中 的 方法 提取 其 中 重要 的 请 求 头 : 


第 一 页 只 有 25 个 电影 ， 如 果 要 获取 所 有 的 250 页 电影 ， 束 需要 获取 总 共 10 页 的 内 容 。 通 过 单 击 第 二 页 可 以 友 现 网 页 地 址 变 成 
T: 


https://movie.douban.com/top250?start=25 


第 三 页 的 地 址 为 : https://movie.douban.com/top250?start=50， 这 就 很 容易 理解 了 ， 每 多 一 页 ， 就 给 网 页 地 址 的 start 
参数 加 上 25。 


3.4.2 项目 实践 


通过 以 上 分 析 友 现 ， 可 以 使 用 requests 获 取 电 影 网 页 的 代码 ， 并 利用 for 循 环 翻 页 。 其 代码 如 下 : 


运行 上 述 代码 ， 得 到 的 结果 是 : 


1 页 响应 状态 码 :200 


<!DOCTYPE html> 
<html lang="zh-cmn-Hans" class="ua-windows ua-webkit"> 
<head> 
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> 


—M 


<meta name="renderer" content="webkit"> 
<meta name="referrer" content="always"> 
<title> 


豆 办 电影 TOP250 


这 时 ， 得 到 的 结果 只 是 网 页 的 HTML 人 代码， 我 们 需要 从 中 提取 需要 的 电影 名 称 。 接 下 来 会 涉及 第 5 草 解 析 网 页 的 内 容 ， 读 者 
可 以 先 使 用 下 面 的 代码 ， 人 至 于 对 代码 的 理解 ， 可 以 等 到 第 5 草 表 学 习 。 


在 上 述 代码 中 ， 使 用 BeautifulSoup 对 网 页 进行 解析 并 获取 其 中 的 电影 名 称 数据 。 运 行 代码 ， 得 到 的 结果 是 : 


1 页 响应 状态 码 :200 


2 页 响应 状态 码 :200 


3 页 响应 状态 人 码 :200 
4 页 响应 状态 码 :200 
5 页 响应 状态 码 :200 
6 页 响应 状态 人 码 :200 
7 页 响应 状态 码 :200 
8 页 响应 状态 人 码 :200 
9 页 响应 状态 人 码 :200 
10 页 响应 状态 码 :200 


[肖申克 的 救赎 ,这 个 杀手 不 太 冷 ,霸王 别 是 , 阿 甘 正 传 , 美丽 人 生 , FSFE, 平 德 勒 的 名 单 ， 泰坦 尼克 号 , 盗 梦 空间 , 机 器 
人 总 动员 ', 海上 钢琴 师 , = BAREIS BAAS ASA Aa CASE A 龙 猫 , 楚 门 的 世界 , 乱世 
诗人 天堂 电 影院 , 当 幸 福来 敲 门 , 触 不 可 及 搏击 俱乐部 ,十 二 怒 汉 "无 间 道 , 熔炉 ', 指环 王 3: EBC Ha REZ 
i’, 罗马 假日 ,http://www.hzcourse.Comy/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16542/OEBPS/Text/...] 


3.4.3 BRLEK 


读者 若 有 时 间 ， 可 以 实践 进 阶 问题 : 获取 TOP 250 电 影 的 身 文 名 、 港 台 名 、 导 演 、 主 演 、 上 映 年 份 、 电 影 分 类 以 及 评分 。 


4.1 动态 抓 取 的 实例 


在 开始 爬 取 动 态 网 页 前 ， 我 们 还 需要 了 解 一 种 异步 更 新 扩 术 一 AJAX (Asynchronous Javascript And XML, 526 
Javascript 和 XML) 。 它 的 价值 在 于 通过 在 后 台 与 服务 器 进行 少量 数据 交换 就 可 以 使 网 页 实现 异步 更 新 。 这 意味 着 可 以 在 不 重新 
加 载 整个 网 页 的 情况 下 对 网 页 的 某 部 分 进行 更 新 。 一 方面 减少 了 网 页 重复 内 容 的 下 载 ， 另 一 方面 节省 了 流量 ， 因 此 AJAX 得 到 了 
广泛 使 用 。 

相对 于 使 用 AJAX 网 页 而 言 ， 传 统 的 网 页 如 果 需 要 更 新 内 容 ， 就 必须 重 载 整个 网 页 页 面 。 因 此 ，AJAX 使 得 互联 网 应 用 程序 更 
小 、 更 快 、 更 友好 。 但 是 ，AJAX 网 页 的 息 虫 过 程 比 较 麻 烦 。 


首先 ， 让 我 们 来 看 动态 网 页 的 例子 。 打 开 笔 者 博客 的 Hello World 文 章 ， 文 章 地 址 
J: http://www.santostang.com/2017/03/02/hello-world/。 如 图 4-1 所 示 ， 页 面 下 面 的 评论 就 是 用 JavaScript 加 载 的 ， 这 些 
评论 数据 不 会 出 现在 网 页 源 代 码 中 。 


图 4-1 动态 网 页 的 示例 


为 了 验证 页 面 下 面 的 评论 是 用 JavaScript 加 载 的 ， 我 们 可 以 查看 此 网 页 的 网 页 源 代码 。 如 图 4-2 所 示 ， 放 置 该 评论 的 代码 里 
面 并 没有 评论 数据 ， 只 有 一 段 JavaScript 人 代码， 最 后 呈现 出 来 的 数据 就 是 通过 JavaScript 提 取 数 据 加 载 到 源 代码 进行 呈现 的 。 


除了 笔者 的 博客 ， 还 可 以 在 天 猫 电 商 网 站 上 找到 AJAX 技 术 的 例子 。 例 如 ， 打 开 天 猫 的 iPhone 7 的 产品 页 面 ， 单 击 “ 累 计 评 
价 ”， 可 以 发 现 上 面 的 url 地 址 没有 任何 改变 ， 没 有 重新 加 载 整个 网 页 并 对 网 页 的 评论 部 分 进行 更 新 ， 如 图 4-3 所 示 . 


‘comments" 


<div id="cloud-tie-wrapper’ class="cloud-tie-wrapper" 
script 

var cloudTieConfig = { 
url: document.location.href, 
sourceld: "1", 
productKey: “aaceld69a092408Sb4fel5q19cb03a/8", 
target: “cloud-tie-wrapper' 


os:)//imal.ws.126.net/f2e/tie/vun/sdk/loader.|s 


图 4-2 ”查看 网 页 的 源 代码 


规格 参数 累计 评价 1601 


图 4-3 累计 评价 


如 图 4-4 所 示 ， 我 们 也 可 以 查看 此 商品 网 页 的 源 代码 ， 里 面 并 没有 用 户 评 论 ， 这 一 块 内 容 是 空 日 的 。 


“diy id="J Reviews” 


class="J DetailSection’ > 
chi class="hd"> Swett <em class=" J_Reviewst ount ">< em></h4> 
</div> 


图 4-4 AJAX 网 页 看 不 到 用 户 评论 
如 果 使 用 AJAX 加 载 的 动态 网 员 ， 怎 么 胞 取 里 面 动态 加 载 的 内 容 呢 ?有 两 种 万 法 : 
(1) 通过 浏览 器 审查 元 素 解 析 地 址 。 


(2) 通过 Selenium 模 拟 浏 览 器 抓 取 。 


42 ”解析 真实 地 址 抓 取 


虽然 数据 并 没有 出 现在 网 页 源 代码 中 ， 但 是 我 们 还 是 可 以 找到 数据 的 真实 地 址 ， 请 求 这 个 真实 地 址 也 可 以 获得 想 要 的 数据 。 
这 里 用 到 浏览 器 的 “检查 ”功能 。 


下 面 以 笔者 博客 的 Hello World 文 章 为 例 ， 目 标 是 抓 取 文 章 下 的 所 有 评论 。 文 章 网 址 
为 : http://www.santostang.com/2017/03/02/hello-world/, 


步骤 01 打开 “检查 ”功能 。 用 Chrome 浏 览 器 打开 Hello World 文 章 。 右 击 页 面 的 任意 位 置 ， 在 弹出 的 快 弹 菜单 中 单 
击 “ 检 查 ” 命 令 ， 得 到 如 图 4-5 所 示 的 页 面 窗口 。 


图 4-5 ”检查 页 面 元 素 


步骤 02 ”找到 真实 的 数据 地 址 。 单 击 页 面 中 的 Network 选 项 ， 然 后 刷新 网 页 。 此 时 ，Network 会 显示 浏览 器 从 网 页 服务 器 


中 得 到 的 所 有 文件 ， 一 般 这 个 过 程 称 为 “ 抓 包 ”。 因 为 所 有 文件 已 经 显示 出 来 了 ， 所 以 需要 的 评论 数据 一 定 在 其 中 。 


一 般 这 些 数据 以 json 文 件 格式 获取 。 因 此 ， 我 们 可 以 单 击 Network 中 的 XHR 选 项 ， 然 后 找到 真正 的 评论 文件 。 评 论文 件 是 


R al 


@O 本 可 


Elements 


View: 


| Filter 


Name 


|_| topFrame.js 
|_| Clipperjs 


|_| Coordinator.js 
| GlobalUtils.js 
|_| Promotion.js 


门 pageVisibie.js 
|_| Pagelnfo.js 
|_| isTest.js 

|_| domReady js 


15 / 57 requests | 2.6KB / 34.5KB transferred | Finish: 4.91s | DOMContentLoade... 


|_| ContentPreview js 


|_| CustomTooltipEligibility.js 
checkSimSearch.js 


|_| check?ibc=yunTie&url=http%3A %2F %2Fwww.santostang .com%2F2017%2... 
| | yotstat?_=1494416123673 
|_| newList?offset=0&limit=30&showLevelThreshold=72&head Limit=1 &tailLimit=2... 


Console Sources 


| Preserve loa [| Disable cache 


T Offline No throttling 


v 


Timeline Profiles Application Security Audits Adblock Plus 


7) Regex Hide data URLs All S CSS Img Media Font Doc WS Manifest Other 


x 


Headers Preview | Response Cookies Timing 


Ve . J 
. J Cl “i 


v data: {,..} 


最 后 一 个 ， 地 址 为 https://api.gentie.163.com/products/。 单 击 Preview 标 签 即 可 查看 数据 ， 如 图 4-6 所 示 。 


> commentids: ["82262403", "82263187", "82261719", “82263143", "82261686", “8226228 1 
v comments: {,..} 


bp 82258482: 
> 82258577: 
> 82258666: 
> 82259782: 
> 82259806: 
> 82260234: 
> 82260679: 
> 82261095: 
> 82261125: 
> 82261170: 
> 82261217: 
> 82261285: 
> 82261307: 
> 82261686: 
> 82261719: 
> 82262203: 
> 82262249: 
> 82262280: 


{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentId: 
{commentla: 


图 4-6 ”查看 数据 


82258482, 
82258577, 
82258666, 
82259782, 
82259806, 
82260234, 
82260679, 
82261095, 
82261125, 
82261170, 
82261217, 
82261285, 
82261307, 
82261686, 
82261719, 
82262203, 
82262249, 


82262280, 


createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 
createTime: 


"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 
"2017-05-09 


22:39:59", 
22:40:35", 
22:41:12", 
22:41:19", 
22741229"; 
22:40:54", 
22:43:58", 
22:40:12", 
22:40:27", 
22:40:44", 
22:41:02", 
22341536", 
22:41:42", 
22:44:20", 
22:44:38", 
22:43:50", 
22:44:06", 
22:44:14", 


buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buildLevel: 
buitdLevel: 
buildLevel: 
buildLevel: 
buitdLevel: 


步骤 03 ”有 把 取 和 真实 评论 数据 地 址 。 既 然 找 到 了 真实 的 地 址 ， 接 下 来 束 可 以 直接 用 requests 请 求 这 个 地 址 获取 数据 了 ， 代 码 


如 下 : 


运行 上 述 代 码 ， 获 得 的 结果 如 图 4-7 所 示 。 


{"code":1,"msg":"success”,"data":{"commentlds":["82858340","82859022","82856655","82857897","82857882","82858277","82858264", "82856 
583","82857799" "82858237" ,"82858166" "82856426" ,°82858072","82857541","82262403","82263187","82261719","82263143","82261686","82 
262280","82262249","82260679","82262203","82261307","82261285","82259806","82259782","82258666","82261217","82260234"],"comment 
s":{"82857882":{"commentld":8285 7882, createTime":"2017-05-10 19:48:31" ,"buildLevel":1,"content’:"#312MiniFie’,"vote":0,"against":0,"sha 
reCount”:0,"favCount":0,"isDel":false,”"anonymous":false, "user":{"userld":9252940, "nickname":"141769766", location” :"4 4", avatar":"https://si 
mg.ws.126.net/e/img5.cache.netease.com/tie/images/yun/photo_default_62.png.39x39.100.jpg", title :null,"vipInfo":"","label":"","id":"dGFuZ19 
za3IAMTYzLmNvbQ= =","authInfo":"","redNamelnfo":[]},"imageUr!":null,"tag":null, "ext":null,"ip":"61.93.*.*","source":"web"," postId":"-84198732 
53791115244 82857882", "unionState”:null, productKey”:"","siteName*:"Santos", "state" :null,”old":0),"82858340":{"commentid":82858340, "crea 
teTime™:"2017-05-10 19:48:56", "buildLevel":1,"content":"$ 35x MitiFie", "vote":0,"against":0,"shareCount":0,"favCount":0,"isDel”:false,"anony 
mous”:false, "user":{"userld":9252940, "nickname":"141769766", "location": ###","avatar":"https://simg.ws.126.net/e/img5.cache.netease.com/ti 
e/images/yun/photo_default_62.png.39x39.100.jpg","title”:null, "vipInfo":"","label":"","id":"dGFuZ19za3IAMTYzLmNvbQ= =", "authInfo":"","redN 
amelnfo":[]},"imageUrl":null, "tag":null,"ext":null,"ip":"61.93.*.*","source”:"web",” postId”:"-8419873253791115244 82858340","unionState":nul 
|," productKey":"","siteName”:"Santos","state":null,"old":0},"82261285":{"commentid":82261285,"createTime":"2017-05-09 22:41:36", "buildLeve 
I":1,"content":"B+—FMiniFie’, "vote":0, "against":0,"shareCount":0,"favCount":0,"isDel” :false,"anonymous":false, "user":{"userld”:9252940, "nic 
kname*:"141769766°, “location”:" Æ", "avatar*:"https://simg.ws.126.net/e/img5.« cache. netease.com/tie/images/yun/photo_default_62. png. 39x 
39.100.jpg","title”:null,"vipInfo":"","label™:"","id":"dGFuZ19za3IAMTYzLmNvbQ==","authInfo":"","redNamelnfo":[]},"imageUr!":null,"tag":null, "ex 
t":null,“ip":"116.49.*.*","source": "web", “posti ":"-8419873253791115244_ 82261285", "unionState" :null,"productKey":"","siteName”:"Santos", “st 
ate”:null,"old":0},"82262203":{" commentld” '82262203,"createTime":" 2017-05-09 22:43:50", "buildLevel":1,"content": "第 十 三 条 测试 评论 ”， "vote": 
0," against”:0,"shareCount":0,"favCount”:0,"isDel":false,"anonymous":false,” user” {"userld":9252940,"nickname":"141769766","location':"& 
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图 4-7 RRIS A R gE E 


综 上 所 述 ， 疏 取 类 似 淘 军 网 评论 这 种 用 AJAX 加 载 的 网 页 时 ， 从 网 页 源 代码 中 是 找 不 到 想 要 的 数据 的 。 需 要 用 浏览 器 的 审查 
元 素 找到 真实 的 数据 地 址 ， 然 后 爬 取 真实 的 网 站 。 


步骤 04 ”从 json 数 据 中 提取 评论 。 上 述 结果 比较 杂乱 ， 其 实 这 些 是 json 数 据 ， 我 们 可 以 使 用 son 库 解析 数据 ， 从 中 提取 想 要 
的 数据 。 


首先 ， 使 用 json.loads 把 字符 串 格式 的 响应 体 数据 转化 为 json 数 据 。 然 后 ， 利 用 json 数 据 的 结构 提取 评论 的 列表 
comment list。 最 后 ， 通 过 一 个 for 循 环 提 取 其 中 的 评论 文本 ， 并 输出 打印 。 


输出 的 结果 如 图 4-8 所 示 。 


图 4-8 ”显示 输出 的 结果 


上 述 教学 只 是 爬 取 文 章 的 第 一 页 评论 ， 十 分 简单 。 其 实 ， 我 们 经 单 需要 疏 取 所 有 页 面 ， 如 果 还 是 人 工 一 页 页 地 翻 页 查找 评论 
数据 的 地 址 ， 束 会 十 分 费力 。 下 面 将 介绍 网 页 URL 地 址 的 规律 ， 并 介绍 一 种 非常 轻松 的 肛 取 方法 一 使 用 for 循 环 胞 取 。 


例如 ， 刚 刚 的 文章 第 一 页 评论 的 真实 地 址 是 : 


https://api.gentie. 163.com/products/aace1d69a0924085b4fe1 5d19cb03a78/threads/- 
8419873253791115244/comments/newList? 


offset=0&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&ibc=yunTie& =1494417192980 
如 果 继 续 单 击 “ 加 载 更 多 跟 帖 ”， 从 “审查 元 素 ” 中 可 以 友 现 第 二 页 的 地 址 是 : 


https://api.gentie.163.com/products/aace1d69a0924085b4fe15d19cb03a78/threads/- 
8419873253791115244/comments/newList? 
offset=308limit=30&showLevelThreshold=72&headLimit=1 &tailLimit=2&ibc=yunTie& =1494427402001 


如 果 对 比 上 面 的 两 个 地 址 ， 可 以 友 现 URL 地 址 中 有 两 个 特别 重要 的 变量 ， 即 offset 和 limit。 稍 微 理解 一 下 可 以 知道 ，limit 代 
表 每 一 页 评论 数量 的 最 大 值 ， 也 就 是 说 ， 这 里 每 一 页 评论 最 多 显示 30 条 ; offset 代 表 本 页 的 第 一 条 评论 是 总 的 第 几 条 ， 第 一 页 
offset 为 0， 第 二 页 offset 为 30， 第 三 页 offset 就 是 60。 


因此 ， 我 们 只 需 在 URL 中 改变 offset 的 值 便 可 以 实现 换 页 。 以 下 是 实现 的 代码 : 


在 上 述 代码 中 ，single_page_commentl(link) 是 之 前 胞 取 一 个 评论 页 面 的 代码 ， 现 在 放 入 沙 数 中 ， 方 便 多 次 调 取 。 另 外 ， 我 
们 可 以 使 用 一 个 for 循 环 分 别 抓 取 第 一 页 和 第 二 页 ， 在 生成 最 终 真 实 的 URL 地 址 后 调用 立 数 抓 取 。 


运行 完 代码 ， 得 到 的 结果 如 图 4-9 所 示 。 


httos://api.gentie.163.com/products/aacela6 9a0924085F 4fel5d19cb03a/78/threads/-8419873253791115244/comments/newList?offset=08limi 


t=30&showLevelThreshold=/2&headLin ‘it= L&tailLimit=2¢ Bribe reas -1494427 "402001 
第 十 条 测试 评论 
第 34 条 测试 评论 
第 六 条 测试 评论 
第 31 条 测试 评论 
第 九条 测试 评论 
第 十 六 条 测试 评论 
第 27 条 测试 评论 
第 28 条 测试 评论 
第 十 五 条 测试 评论 
第 25 条 测试 评论 
第 23 条 测试 评论 
第 十 三 条 测试 评论 
第 二 十 条 测试 评论 


图 4-9 ”调用 函数 抓 取 结果 


4.3 ”通过 Selenium 模 拟 浏 览 器 抓 取 


在 之 前 的 例子 中 ,使 用 Chrome 的 “检查 ”功能 找到 源 地 址 十 分 容易 ， 但 是 有 一 些 网 站 非常 复杂 ， 如 天 猫 产 品评 论 ， 使 
用 “检查 ”功能 很 难 找到 调用 的 网 页 地 址 。 除 此 之 外 ， 有 一 些 数据 真实 地 址 的 URL 也 十 分 见长 和 复杂 ， 有 些 网 站 为 了 规避 这 些 抓 
取 会 对 地 址 进行 加 密 ， 造 成 其 中 的 一 些 变 量 让 人 摸 不 着 头脑 。 

AE, 介绍 另 一 种 方法 ， 即 使 用 浏览 器 演 染 引擎。 直接 用 浏览 器 在 显示 网 页 时 解析 HTML、 应 用 CSS 样 式 并 执行 


Java aa 


这 个 方法 在 朴 虫 过 程 中 会 打开 一 个 浏览 器 加 载 该 网 页 ， 目 动 操 作 浏 贤 器 浏览 各 个 网 页 ， 顺 便 把 数据 抓 下 来 。 用 一 句 简单 而 通 
俗 的 话 襄 ， 融 是 使 用 浏览 器 泻 染 方法 将 爬 取 动 态 网 页 变 成 礁 取 静态 网 页 。 


我 们 可 以 用 Python 的 Selenium 库 模拟 浏览 器 完成 抓 取 。Selenium 是 一 个 用 于 Web 应 用 程序 测试 的 工具 。Selenium 测 试 直 
接 运 行 在 浏览 器 中 ， 浏 览 器 自动 按照 脚本 代码 做 出 单 击 、 输 和 入、 打开、 验证 等 操作 ， 束 像 真 正 的 用 户 在 操作 一 样 。 


4.3.2 Selenium 的 实 足 案 例 
为 了 演示 Selenium 是 怎么 工作 的 ， 在 前 面 用 Chrome 浏 览 器 的 “检查 ”功能 解析 了 网 页 的 真实 地 址 ， 谍 取 了 博客 文章 评 
论 。 接 下 来 ， 我 们 将 使 用 Selenium 万 法 获取 同样 的 博客 评论 数据 ， 作 为 Selenium 的 实践 案例 。 


由 于 Selenium 使 用 浏览 器 泻 染 ， 因 此 那些 评论 数据 已 经 党 染 天 了 HTML 代 码 中 。 我 们 可 以 使 用 Chrome “检查 ”的 万 法 定位 
元 素 位 置 。 


步骤 01 找到 评论 的 HTML 代 码 标签 。 使 用 Chrome 打 开 该 文章 页 面 ， 右 击 页 面 ， 在 弹出 的 快捷 菜单 中 单 击 “ 检 查 ” 命 令 。 
按照 第 2 章 的 方法 定位 评论 数据 。 如 图 4-11 所 示 ， 可 以 看 到 该 数据 的 标签 为 <p class= "tie-cnt"> 第 35 条 测试 评论 </p>。 


p.tie-cnt 631.33=20 


-2|) userId-9252948| loginType-cloudUser ) 


div class ws / GI 
p class="tie-cnt -35FMitFit</p> == $8 
olBar” ne-tm 


bA 


pl="operateTpl" ne-data="1 


图 4-11 找到 评论 的 HTMIL 代码 标签 


步骤 02 尝试 获取 一 条 评论 数据 。 在 原来 打开 页 面 的 代码 数据 上 使 用 以 下 代码 获取 第 一 条 评论 数据 。 在 下 面 代 码 
中 ，driver.find element by css selector 表 示 用 CSS 选 择 器 查找 元 素 ， 找 到 class 为 bdy-inner 的 div 元 素 ; 
find_element_by _tag_name 表 示 通 过 元 素 的 tag 寻 找 ， 意 思 是 找到 comment 中 的 p 元 素 。 最 后 ， 输 出 p 元 素 中 的 text 文 本 。 


GOMES eeEor Gly ely Tn 


content comment.find element by tag name('p') 


print (content.text) 


运行 上 述 代码 ， 得 到 的 结果 是 : “第 35 条 测试 评论 ”， 获 得 了 第 一 条 评论 数据 。 


4.3.3 Selenium 获取 文章 的 所 有 评论 


4.3.2 节 只 是 获取 了 一 条 评论 ， 如 果 要 获取 所 有 评论 ， 就 需要 脚本 程序 能 够 自动 单 击 “ 加 载 更 多 跟 帖 ”和 “下 一 页 ”。 这 样 
才能 够 把 所 有 评论 显示 出 来 。 


因此 ， 我 们 需要 找到 “加载 更 多 跟 帖 ”和 “下 一 页 ”的 元 素 地 址 ， 然 后 让 Selenium 模 拟 单 击 并 加 载 评论 。 具 体 代码 如 下 : 


代码 的 前 端 部 分 和 之 前 一 样 ， 用 来 打开 该 文章 负面。 后 面 的 第 一 个 for 循 环 用 来 加 载 下 一 页 ， 这 里 最 大 信 设 置 为 10， 代 表 最 
多 加 载 10 页 。 


第 二 个 for 循 环 用 来 单 击 “ 加 载 更 多 跟 帖 ”， 通 过 两 次 单 击 把 该 页 的 所 有 评论 加 载 出 来 。 我 们 使 用 
driver.find element by css selector(div.tie-load-more'") 找 到 该 元 素 ， 然 后 使 用 .click() 方 法 模拟 单 击 ， 最 后 把 所 有 的 评论 打印 


之 后 如 何 单 击 下 一 页 呢 ? 这 里 使 用 driver.find _ element by css selector(span.z-next'") 找 到 该 元 素 ， 然 后 使 用 .click() 方 法 
模拟 单 击 并 加 载 下 一 页 。 


find element by css selector: 通过 元 素 的 class 选 择 


find element by css selector(div.bdy-inner )。 


find element by xpath: 通过 xpath 选 择 ， 如 <form id= "loginForm"> 可 以 使 用 
driver.find element by xpath("//form[@id='loginForm’']"), 


find element by id: 通过 元 素 的 id 选择 ， 如 <div id='bdy-inner >test</div> 可 以 使 用 driver.find element by id(‘bdy- 


inner’), 


find element by name: 通过 元 素 的 name 选 择 ， 如 <input name= "username'"type= "text"/> 可 以 使 用 


driver.find element by name(password )。 


find_ element by link text: 通过 链接 地 址 选择 ， 如 <a href="continue.html">Continue</a> 可 以 使 用 


driver.find element by link text(Continue'), 


find_element_by_partial_link_text: 通过 链接 的 部 分 地 址 选择 ， 如 <a href="continue.html">Continue</a> 可 以 使 用 
driver.find element by partial link text('Conti’), 


find_element_by tag_ name: 通过 元 素 的 名 称 选 择 ， 如 <h1>Welcome</h1> 可 以 使 用 


driver.find element by tag name(‘h1’), 


find element by class name: 通过 元 素 的 class 选 择 ， 如 <p class="content">Site content goes here.</p> 可 以 使 用 


driver.find element by class name(content )。 


有 了 时， 我 们 需要 查找 多 个 元 素 。 上 述 例 子 就 查找 了 所 有 的 评论 。 因 此 ， 也 有 对 应 的 元 素 选 择 方法 ， 就 是 在 上 述 的 element 后 
加 上 s， 变 成 elements。 


find elements by name 

find elements by xpath 

find elements by link text 

find elements by partial link text 

find elements by tag name 

find elements by class name 

find elements by css selector 

其 中 ，xpath 和 css_selector 是 比较 好 的 方法 ， 一 方面 比较 清晰 ， 另 一 方面 相对 其 他 方法 定位 元 素 比 较 准 确 。 
在 上 述 例子 中 ， 我 们 使 用 了 Selenium 的 click 操 作 元 素 方 法 。 常 见 的 操作 元 素 方法 如 下 : 
Clear 清 除 元 素 的 内 容 。 

“ send_keys 模 拟 按 键 输入 。 

Click #4 AF o 


g Submit 提 交 表 单 o 


user = driver.find element by name ("username")  # 找 到 用 户 名 和 输入 框 
user.clear HARP AMMEN 

user.send keys("1234567") # 在 框 中 输入 用 户 名 

pwd = driver.find element by nm ("password") # 找 到 密码 输入 框 
pwd.clear # 清 除 密码 输入 框 内 容 

pwd.send keys ("******") FETE P Fa A A 
driver.find element by id("loginBtn") .click() # 单 击 登 录 


上 述 代 码 是 一 个 目 动 登录 程序 截取 的 一 部 分 。 从 代码 中 可 以 看 到 ， 可 以 用 Selenium 操 作 元 素 的 方法 对 浏览 器 中 的 网 页 进行 
各 种 操作 ， 包 括 登 录 。 


selenium 除 了 可 以 实现 简单 的 鼠标 操作 ， 还 可 以 实现 复杂 的 双击 、 拖 搜 等 操作 。 此 外 ，selenium 还 可 以 获得 网 页 中 各 个 元 
素 的 大 小 ， 甚 到 可 以 进行 模拟 键盘 的 操作 。 由 于 篇 幅 有 限 ， 有 兴趣 的 读者 可 以 到 Selenium 的 官方 网 站 查看 文 
档 : http://selenium-python.readthedocs.io/index.html, 


43.4 ”Selenium 的 高 级 操作 
使 用 Selenium 和 使 用 浏览 器 “检查 ”的 方法 聆 取 动态 网 页 相 比 ， 因 为 Selenium 要 在 整个 网 页 加 载 出 来 后 才 开 始 爬 取 内 容 ， 
速度 往往 较 慢 。 


因此 ， 在 实际 使 用 中 ， 如 果 使 用 浏览 器 的 “检查 ”功能 进行 网 页 的 逆 同 工程 不 是 很 复习 ， 融 最 好 使 用 浏览 器 的 “检查 ” 功 
能 。 不 过 ， 也 有 一 些 亡 法 可 以 用 Selenium 控 制 浏览 器 加 载 的 内 容 ， 从 而 加 快 selenium 的 爬 取 速度 。 单 用 的 方法 有 : 


(1) 控制 CSs 的 加 载 。 
(2) 控制 图 片 文件 的 显示 
(3) 控制 JavaScript 的 运行 。 


(1) 控制 C39。 因 为 抓 取 过 程 中 仅仅 抓 取 页 面 的 内 容 ，C9s 样 式 文 件 是 用 来 控制 页 面 的 外 观 和 元 素 放置 位 置 的 ， 对 内 容 并 
影响 ， 所 以 我 们 可 以 限制 网 页 加 载 CSS， 从 而 减少 抓 取 时 间 。 其 代码 如 下 : 


运行 上 述 代码 ， 得 到 的 页 面 如 图 4-13 所 示 。 
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图 4-13 ”控制 CSS 的 页 面 


(2) 限制 图 片 的 加 载 。 如 果 不 需 要 抓 取 网 页 上 的 图 片 ， 最 好 可 以 茜 止 图 片 加 载 ， 限 制图 片 的 加 载 可 以 帮助 我 们 极 大 地 提高 
网 络 怜 虫 的 效率 。 因 为 网 页 上 的 图 片 往 往 较 多 ， 而 且 图 片 文件 相对 于 文字 、C93、Javascript 等 其 他 文件 都 比较 大 ， 所 以 加 载 需 


要 较 长 时 间 。 


运行 上 述 代码 ， 得 到 的 页 面 如 图 4-14 所 示 。 


EA @ | venw.santastang.comy/ 201 7/113/02/hello-world GH ce ja SF ceke |t 8 $n o- | = 


a aren L vressa @ ae RAE I mem 


ASGEO BIE 


Santos 


a in & 


a 8h 


cj ”769766 [Santosa] 
on bape AEE 


a LAI7697HG [Sant ele] 
j 
— one 


图 4-14 ”限制 显示 图 片 


(3) 控制 JavaScript 的 运行 。 如 果 需 要 抓 取 的 内 容 不 是 通过 JavaScript 动 态 加 载 得 到 的 ， 我 们 可 以 通过 禁止 JavaScript 的 执 
行 来 提高 抓 取 的 效率 。 因 为 大 多 数 网 页 都 会 利用 Javascript 异 步 加 载 很 多 内 容 ， 这 些 内 容 不 仪 是 我 们 不 需要 的 ， 它 们 的 加 载 还 滔 
费 了 时 间 。 


from selenium import webdriver 
reom seleniu er iver. fi rerox CIETO Dinary Import 
FirefoxBinary 


caps = webdriver.DesiredCapabilities().FIREFOX 
caps["marionette"] = False 


binary = FirefoxBinary(r'D:\Program Files\Mozilla 
Firefox\firefox.exe') 

# 把 上 述 地 址 改 成 你 计算 机 中 Firefox 程序 的 地 址 

fp = webdriver.FirefoxProfile() 

Ue eee ee ye a silks: =) 

Piet es = Webomiyet hie erow| Pitetox bins —oinary,) Sibeten POELE 
= fp, capabilities=caps) 

driver.get("http://www.santostang.com/2017/03/02/hello-world/") 


这 3 种 万 法 哪 一 种 最 书 省 时 间 呢 ?通过 对 上 述 3 种 方法 的 测试 ， 尝 试 加 载 博 客 的 主页 50 次 ， 并 对 加 载 时 间 取 平均 值 。 这 3 种 方 
法 各 目 加 载 所 需 的 时 间 如 表 4-1 所 示 。 


表 4-1 不 同方 法 加 载 所 需 的 时 间 


| 相对 不 限制 的 时 间 比 


不 做 任何 限制 52.278 Pb 


限制 CSS 加 载 50.500 Fb 1.04 


限制 图 片 加 载 46.274 $) 
限制 JavaScript 加 载 51.461 秒 
限制 CSS、 图 片 、JavaScript 加 载 | 41.878 秒 


通过 上 还 结果 ， 我 们 友 现 3 种 限制 方法 都 能 使 您 虫 加 载 网 页 的 速度 有 所 加 快 ， 其 中 全 部 限制 对 于 加 载 速 度 的 提升 效果 最 好 。 
由 于 3 种 方法 的 时 间 相 差 并 不 是 很 多 ， 再 加 上 网 络 环境 和 随机 变量 的 原因 ， 因 此 我 们 并 不 能 肯定 哪 种 方法 更 好 。 有 具体 的 加 载 速度 
提升 还 得 看 相应 的 网 页 ， 若 网 页 的 图 片 比较 多 ， 则 限制 图 片 的 加 载 肯定 效果 很 好 。 


如 果 能 够 限制 ， 那 么 最 好 限制 多 种 加 载 ， 这 样 的 效果 最 好 。 


4.4 Seleniumf@ BSc: 深圳 


得 租 数 据 


本 章 实践 项 目的 目的 是 获取 Airbnb 深 圳 前 20 页 的 短 租房 源 。 作 为 Airbnb 的 超 赞 房 和 示 ， 笔 者 特别 喜欢 Airbnb 的 理念 ， 同 时 需 
要 监控 和 了 解 亮 争 对 手 的 房屋 名 称 和 价格 ,这样 才 能 让 目 己 的 房子 有 竞争 力 。 


本 项 目 需要 获取 前 20 页 短 租房 源 的 名 称 、 价 格 、 评 价 数量 、 房 屋 类 型 、 床 数量 和 房客 数量 。 网 页 地 址 
为 : https://zh.airbnb.com/s/Shenzhen--China?page=1。 


4.4.1 网 站 分 析 


打开 Airbnb 深 圳 前 200 短 租房 源 的 网 页 ， 右 击 页 面 任意 位 置 ， 在 弹出 的 快捷 菜单 中 单 击 “检查 ”命令 ， 如 图 4-15 所 示 。 


小 
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Soft Lending of Shenzhen Private room close to Hong Kong -Futian Check… 


VRS): ikk ， 2 位 房 各 mye - ER 2Re 


Es rer 5 SE v CA 
[x all Elements Console Sources Network Timeline Profiles Application Secunty Audits Adblock Plus 


Juz 


| 
idiv iz Siyles | Computed Event Listeners 
/Span> 
/ span | Filter 
/div> 
‘div lý 
Vediy class="listingNameContainer_ka7acð-o_0-ellipsized_1iurgbx" data-reactid="226 |- : a 
¥<span class-"text_Smbkop-o_O-size_small_lgg2mc-o_0-inline_g8ér3e" data-reactid-"227"» == $¢ ER 
span dota-react1id="228"7>Scoft Landing at Shenzhen</spen inline_g66r je à 3 
fenan? font-weight: normal limportant; 
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system, BlinkMacSystemFont, Roboto, Halveti 
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margin: ® Opx !important; 
word-wrap: breek-word !importent; 
font-size: 15px !important; 
</div line-height: 18px !important; 
‘div letter-spacing: @.2px !important; 
vediv cless="colum_irnzé4d-o0_0-column-sm-12_lwbopx2-0_0- column-md-6_1du467z2" dete-reactid="242" | padding-top: @px !inportant; 
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图 4-15 深圳 前 200 短 租房 源 的 网 页 


在 打开 的 代码 中 ， 我 们 可 以 找到 各 个 数据 所 在 的 HTML 代 码 的 位 置 。 首 先 可 以 找到 一 个 房子 的 所 有 数据 ， 如 图 4-16 所 示 。 
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【建筑 


岳之 家 Architect Home] 空间 戏法 B 一 一 福 … 
独立 房间 。 KR ，2 位 房客 


图 4-16 一 个 房子 的 所 有 数据 


得 到 某 房子 所 有 数据 的 地 址 为 : div.infoContainer_v72lrv, 


然后 在 这 些 数据 中 定位 价格 数据 ， 地 址 为 div.priceContainer 4ml1ll， 如 图 4-17 所 示 。 


图 4-17 定位 价格 数据 


之 后 定位 评价 数据 ， 地 址 为 span.text 5mbkop-o O-size micro 16wifzf-o O-inline g86r3e， 如 图 4-18 所 示 。 


图 4-18 ”定位 评价 数据 
我 们 再 定位 房屋 名 称 数 据 ， 地 址 为 div.listingNameContainer kq7ac0-o O-ellipsized 1iurgbx， 如 图 4-19 所 示 。 


E Z l 


ed_liurgbx 


"家 Architect Home] = a] RBH: 


图 4-19 ”定位 房屋 名 称 数据 


最 后 定位 房间 类 型 、 床 数量 和 房客 数量 ,地址 为 span.detailWithoutWrap_j1kt73， 如 图 4-20 所 示 。 


高 训 人 读 育 依 Sti 


图 4-20 ”定位 房间 类 型 、 床 数量 和 房客 数量 
这 样 ， 通 过 找到 各 个 数据 定位 的 class 可 以 得 到 如 表 4-2 所 示 的 表格 。 


表 4-2 各 个 数据 定位 的 classs 


VF eT rating ontainer r inline 36rlri 
listingNameContainer _ 
kq7ac0-o O- 


ellipsized_liurgbx 
房屋 种 类 
房客 数量 


44.2 IQR Scr 


通过 以 上 分 析 ， 我 们 已 经 能 够 获得 各 个 数据 所 在 的 地 址 了 ， 接 下 来 用 Selenium 获 取 Airbnb 第 一 页 的 数据 。 其 代码 如 下 : 


首先 ， 使 用 Selenium 打 开 访 页面， 再 使 用 Selenium 的 css selector 获 取 所 有 房屋 的 div 数 据 ， 也 就 是 


driver.find elements by css selector(‘div.infoContainer v72lrv)。 在 得 到 所 有 房屋 的 列表 后 ， 用 for 循 环 从 中 一 个 一 个 解析 需 
要 的 数据 。 

根据 4.4.1 小 节 从 网 站 分 析 找 到 的 列表 可 以 获得 评论 数 、 价 格 、 房 屋 名 称 、 房 屋 种 类 、 床 数量 和 房客 数量 的 地 址 ， 在 这 里 仍 
然 使 用 css selector 从 中 找到 这 些 数 据 。 值 得 注意 的 是 ， 由 于 房屋 种 类 、 床 数量 和 房客 数量 使 用 的 元 素 都 为 span，class 为 
detailWithoutWrap j1kt73， 因 此 首先 把 这 3 个 数据 提取 出 来 ， 变 成 details， 然 后 使 用 detail list=[i.text for i in details]， 此 时 
detail_list 是 [独立 房间 ,1 张 床 2 位 房客 ]， 于 是 可 以 提取 这 个 列表 的 数据 了 。 


运行 上 述 代码 ， 得 到 的 结果 是 : 

13 条 评价 96HKD Private room close to Hong Kong-Futian Checkpoint 独 立 房间 1 张 床 2 位 房客 

4 条 评价 104HKD Soft Landing at Shenzhen 独 立 房间 1 张 床 2 位 房客 

12 条 评价 104HKD 5 号 线 上 水 径 附 近 (DERA) 的 温馨 房间 独立 房间 1 张 床 2 位 房客 

10 条 评价 345HKD 蓝 蓝 公 寅 (深圳 福田 ) CBD 地 铁 口 新 洲 家 乐 福 旁 整套 房子 /公寓 1 张 床 2 位 房客 

10 条 评价 313HKD【 建 筑 师 之 家 Architect Home】 绘 造 社 一 一 景 田地 铁 蔗 整套 房子 /公寓 1 张 床 3 位 房客 
4 条 评价 425HKD 五 星 级 酒店 公 寅 地 铁 口 文 艺 复 古 中 式 景 观 双 人 套房 整套 房子 / 公 寅 1 张 床 2 位 房客 


http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/16542/OEBPS/Text/... 


仅仅 获取 一 个 页 面 还 不 够 ， 我 们 要 获取 前 面 20 页 的 所 有 房屋 ， 因 此 需要 找到 不 同 页 数 的 网 页 地 址 的 模式 。 打 开 第 二 页 ， 奴 
现 网 页 地 址 变 成 了 https://zh.airbnb.com/s/Shenzhen--China?page=2; 打开 第 三 页 ， 网 页 地 址 变 成 
J https://zh.airobnb.com/s/Shenzhen--China?page=3, 


XMR DIES, ASC et SITIwL Ra — Perea SN, AERA ZORA Sea LAE CASA : 


from selenium import webdriver 
From Se lealUmi NERO Eero binary Import 


FirefoxBinary 


import time 


caps = webdriver.DesiredCapabilities() .FIREFOX 
caps["marionette"] = False 
binary = FirefoxBinary(r'D:\Program Files\Mozilla 


Firefox\firefox.exe') 
# 把 上 述 地 址 改 成 你 计算 机 中 Firefox 程序 的 地 址 


人 


capabilities=caps) 


Lor 1 1n rangel Al: 


在 上 述 代码 中 ， 我 们 仅仅 为 前 面 的 代码 加 上 了 一 个 循环 ， 从 而 获取 第 1 到 第 20 页 的 数据 。 数 据 格式 乙 前 的 代码 一 样 ， 这 里 融 
不 展示 了 。 


4.4.3 BRLEK 


读者 奉 有 时 间 ， 可 以 实践 进 阶 问题 : 将 Selenium 的 控制 CSs 加 载 、 控 制图 片 加 载 和 控制 Javascript 加 载 加 入 本 实践 项 目的 代 
码 中 ， 从 而 提升 他 虫 的 速度 。 


Som 解析 网 页 


我 们 已 经 能 够 使 用 requests 库 从 网 页 把 整个 源 代码 代 取 下 来 了 ， 接 下 来 需要 从 每 个 网 页 中 提取 一 些 数 据 。 本 章 主 要 介绍 使 用 
3 种 方法 提取 网 页 中 的 数据 ， 分 别 是 正则 表达 式 、BeautifulSoup 和 lxml。 


3 种 万 法 各 有 干 秋 ， 想 要 快速 学 习 的 读者 可 以 先 挑 选 一 种 目 己 喜 欢 的 万 法 学 习 ，3 种 万 法 都 能 够 解析 网 页 。 你 也 可 以 先 阅 读 
本 章 的 最 后 一 节 ， 在 了 解 3 种 方法 各 目的 优 缺 点 后 ， 再 选择 一 种 万 法 开始 学 习 。 


5.1 ”使 用 正则 表达 式 解 析 网 页 


正则 表达 陈 是 对 字符 串 操 作 的 一 种 逻辑 公式 ， 融 是 用 事先 定义 好 的 特定 字符 和 这 些 特定 字符 的 组 合 组 成 一 个 规则 字符 串 ， 这 
个 规则 字符 串 用 来 表达 对 字符 串 的 一 种 过 滤 逻 辑 。 举 一 个 最 简单 的 例子 ， 假 设 字符 串 为 PAIR, RAISE, RIE 
提取 其 中 的 水 果 ， 用 正则 表达 陈 匹 配 我们 爱 吧 后 面 的 内 容 融 可 以 找到 SR 和 BRT 


在 提取 网 页 中 的 数据 的 时 候 ， 我 们 可 以 先 把 源 代码 变 成 字符 串 ， 然 后 用 正则 表达 陈 匹 配 想 要 的 数据 。 刚 刚 接触 正则 表达 陈 时 
可 能 会 网 得 星 深 难 懂 ， 但 是 使 用 正则 表达 式 可 以 迅速 地 用 极 简单 的 方式 达到 字符 串 的 复杂 控制 。 


表 5-1 是 常见 的 正则 字符 和 含义 。 如 果 想 了 解 更 为 详细 的 正则 表达 式 文 档 ， 可 以 访 
问 : https://docs.python.org/3/library/re.html, 


表 5-1 第 见 的 正则 字符 和 含义 


配 任意 字符 ， 除 了 换行 符 匹配 空白 字符 
字符 0 次 或 多 次 S 匹配 任何 非 罕 日 字符 


模式 

la | 

一 个 字符 1 次 或 多 次 匹配 数字 ， 等 价 于 [0-9] 
$ 


个 字符 0 次 或 1 次 匹配 任何 非 数 字 ， 等 价 于 [^0-9] 
PLAC BE a, “et FLA-Za-z0-9_] 
DU Aid SEH BEBE, EY FF [A A-Za- 
z0-9 | 
下 配 括号 内 的 表达 式 ， 也 表示 一 个 组 用 来 表示 一 组 字符 


首先 ， 我 们 介绍 Python 正则 表达 式 的 3 种 方法 ， 分 别 是 match、search 和 findall。 


5.1.1 re.match 方 法 


re.match 的 意思 是 从 字符 串 起 始 位 置 匹配 一 个 模式 ， 如 果 从 起 始 位 置 匹 配 不 了 ，match(0 融 返回 none。 


re.match 的 语法 为 re.match(pattern,string,flags=0)， 其 中 pattern 是 正则 表达 式 ， 包 含 一 些 特 殊 的 字符 ，string 为 要 匹配 
的 字符 串 ，flags 用 来 控制 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 多 行 匹 配 等 。 


例如 ， 我 们 想 使 用 两 个 字符 串 匹 配 并 找到 匹配 的 位 置 ， 可 以 使 用 : 


import re 

m = re.match('www', 'www.santostang.com') 
print ("匹配 的 结果 : ", m) 

print ("匹配 的 起 始 与 终 操 : ", m.span()) 
print ("区 配 的 起 始 位 置 ", m.start()) 


print (" 罗 配 的 终点 位 置 : ", m.end()) 
得 到 的 结果 为 : 


匹配 的 结果 :< sre.SRE Match object;span=(0,3),match='www'> 
匹配 的 起 始 与 终点 :(0,3) 

匹配 的 起 始 位 置 :0 

匹配 的 终点 位 置 :3 


上 述 例子 中 的 pattern 只 是 一 个 字符 串 ， 我 们 也 可 以 把 pattern 改 成 正则 表达 式 ， 从 而 匹配 具有 一 定 模 式 的 字符 串 ， 例 如 : 


line = "Fat cats are smarter than dogs, is it right?" 
i= re. .mMetont tise) are th dogs"; aa) 

print PERNE, m.group (0) ) 

print (‘DLAC —T45R', m.group(1)) 

print (* 风 配 的 第 三 个 结果 '"，m,.group(2)) 

print (' 匹 配 的 结果 列表 '，m.groups ()) 


得 到 的 结果 为 : 

匹配 的 整 句 话 Fat cats are smarter than dogs 
匹配 的 第 一 个 结果 Fat cats 

匹配 的 第 二 个 结果 smarter than 
匹配 的 结果 列表 ('Fat cats','smarter than’) 

为 什么 要 在 match 的 模式 前 加 上 r 呢 ? 


"(.*)are(.*?).* 前 面 的 "意思 是 raw string， 代 表 纯 粹 的 字符 串 ， 使 用 它 融 不 会 对 引号 里 面 的 芭 斜 杠 \ 进行 特殊 处 理 。 因 为 在 
正则 表达 式 中 有 一 些 类 似 \d (匹配 任何 数字 ) 的 模式 ， 所 以 模式 中 的 单个 反 斜 杠 、\ 符号 都 要 进行 转译 。 


假如 你 需要 匹配 文本 中 的 字符 \" ， 使 用 编程 语言 表示 的 正则 表达 式 里 残 需要 4 个 反 斜 杠 ”\\N": 前 两 个 反 斜 杠 "和 后 两 个 
反 斜 杠 "\\ 各 目 在 编程 语言 里 转 勾 成 一 个 反 斜 杠 "/， 所 以 4 个 反 斜 杠 ”\\\\ 融 转 义 成 了 两 个 芭 斜 \\"， 这 两 个 反 斜 杠 "\\" 最 终 在 正 
则 表达 陈 里 转 义 成 一 个 反 斜 杠 、\"。 


Python 里 的 原生 字符 串 很 好 地 解决 了 这 个 问题 ， 在 正则 表达 陈 里 不 会 再 转 义 ， 这 个 例子 中 的 正则 表达 陈 可 以 使 用 \\ E 


小 \。 


为 什么 这 里 (.*) 匹 配 了 Fat cat， 而 (*?) 只 匹配 了 smarter 呢 ? 


这 就 涉及 正则 表达 式 匹 配 中 默认 的 贪 梦 模式 总 是 尝试 匹配 尽 可 能 多 的 字符 。 在 上 述 例子 中 ，(.*)are 会 尽量 匹配 最 多 的 字符 ， 
因此 把 Fat cat 匹 配 了 。 非 贪 楚 模式 则 相反 ， 总 是 尝试 匹配 尽 可 能 少 的 字符 ，are(.*?) 会 尽量 匹配 尽量 少 的 字符 ， 因 此 把 smarter 
匹配 了 。 


5.1.3 re.findall 方 法 


上 述 match 和 search 方 法 中 ， 我 们 只 能 找到 一 个 匹配 所 写 的 模式 ， 而 findall 可 以 找到 所 有 的 匹配 ， 例 如 : 


上 述 代码 的 '[0-9]+ 表示 任意 长 度 的 数字 ， 然 后 在 后 面 的 字符 串 中 进行 匹配 。 


运行 上 述 代码 ， 得 到 的 结果 是 : 


12345 
12345 
('12345', '23456" 
findall 与 match、search 不 同 的 是 ，findall 能 够 找到 所 有 匹配 的 结果 ， 并 且 以 列表 的 形式 返回 。 当 有 拒 取 博客 文章 的 标题 时 ， 
如 果 提 取 的 不 只 是 一 个 标题 ， 而 是 所 有 标题 ， 就 可 以 用 findall。 


博客 的 文章 标题 部 分 的 HTML 代 码 如 下 : 


抓 取 博客 主页 所 有 文章 标题 的 Python 代码 如 下 : 


以 上 代码 用 于 提取 博客 主页 上 所 有 文章 的 标题 ， 这 里 使 用 findall 匹 配 ， 使 用 '<h1class= "post-title"> <a href=.*?>(.*?) 
</a> </h1> 正则 表示 陈 表示 对 所 有 满足 此 条 件 的 结果 提取 其 中 的 (”?) 部 分 。 运 行 代码 ， 得 到 的 结果 是 : 


[Hello Python!', echarts 学 习 笔 记 (2)&#8212; 同 一 页 面 多 图 表 ', echarts 学 习 笔 记 (1)&#8212; 模 块 化 单 文件 引入 ，【 压 虫 


二 】 拒 虫 的 框架 和 基本 议题 '"【 有 谍 虫 一 】 最 简单 的 他 虫 ， 零 基础 教学 ','Hello world!’] 


这 样 束 把 所 有 的 标题 提取 出 来 了 。 如 果 还 想 更 加 深入 地 学 习 正 则 表达 式 ， 或 者 在 平时 经 常用 到 正则 表达 式 ， 可 以 进入 
Regular Expression 101 网 站 学 习 ， 网 站 地 址 为 https://regex101.com/。 


5.2 ”使 用 BeautifulSoup 解 析 网 页 


Beautifulsoup 可 以 从 HTML 或 XML 文件 中 提取 数据 。 根 据 其 官方 文档 的 摘 述 ，Beautiful Soup 可 以 提供 一 些 简单 的 、 
Python 式 的 函数 用 来 处 理 导 航 、 搜 索 、 修 改 分 析 树 等 。BeautifulSoup 是 一 个 工具 箱 ， 通 过 解析 文档 为 用 户 提供 需要 抓 取 的 数 
据 ， 因 为 简单 ， 所 以 不 需要 多 少 代码 吕 可 以 写 出 一 个 完整 的 应 用 程序 。 


下 面 将 介绍 BeautifulSoup 4 中 的 主要 特性 ， 并 且 提 供 示 例 来 展示 它 适 合 做 人 什么、 怎样 使 用 。 


5.2.1 ”BeautifulSoup 的 安装 


安 妆 Beautiful3oup 非 单 简单 ， 使 用 pip 安 妆 即 可 。 人 在 cmd 中 输入 : 
pip install bs4 
之 后 按 回 后 键 残 可 以 成 功 安 疼 了。 
Beautiful Soup 支 持 Python 标 准 库 中 的 HTML 解 析 器 ， 还 支持 一 些 第 三 方 的 解析 器 。 


表 5-2 列 出 了 主要 的 解析 器 及 其 优 缺 点 。 


表 5-2 解析 器 及 其 优 缺点 


使 用 方法 


Python H N PRYE JE 在 Python3.2.2 前 
执行 速度 适中 AAS HA SCR AE FF 
SCP AE F He JJ REJJ Az 


Python BeautifulSoup(markup, "html.par 
标准 库 ”| ser") 


Ixml 

HTML BeautifulSoup(markup, "lxml") 
AE ATT ait 

Ixml BeautifulSoup(markup, ["Ixml", 
XML "xml" ]) er E E 
a ice epee IHE “SL FF XML 路 five Be 
ivi tT 4% | BeautifulSoup(markup, "xml") tH SAAT a 
最 好 的 容错 性 

以 浏览 疮 的 方式 解析 文档 
生成 HTMLS 格式 的 文档 


速度 慢 
不 依赖 外 部 扩展 


BeautifulSoup(markup, "html$1 


html5lib b") 


使 用 |xml 的 解析 器 将 会 解析 得 更 快 ， 这 里 也 推荐 大 家 使 用 。 


5.2.2 ”使 用 BeautifulSoup 获 取 博 客 标 题 


前 面 我 们 使 用 re 正则 表达 陈 获 取 过 博客 主页 文章 的 所 有 标题 ， 这 里 重新 使 用 Beautifulyoup 获 取 。 获 取 的 代码 如 下 : 


运行 上 述 代码 ， 得 到 的 结果 是 : 

第 一 篇 文章 的 标题 是 : Hello Python! 

第 1 篇 文章 的 标题 是 : Hello Python! 

第 2 篇 文章 的 标题 是 : echarts 学 习 笔 记 (2) 一 同一 页 面 多 图 表 
第 3 篇 文章 的 标题 是 : echarts 学 习 笔记 (1) 一 模块 化 单 文件 引入 
第 4 篇 文章 的 标题 是 : 【 疏 虫 二 】 怜 虫 的 框架 和 基本 议题 

第 5 篇 文章 的 标题 是 : [Ek] RRR, Sins 
第 6 篇 文章 的 标题 是 : Hello world! 


首先 ， 我 们 需要 使 用 BeautifulSoup(r.text, "html.parser") 将 网 页 响应 体 的 字符 串 转化 为 soup 对 象 ， 然 后 惑 可 以 使 用 soup 库 
的 功能 了 。 


如 果 想 找到 html 代 码 中 的 <h1> 元 素 ，class 为 'post-title '， 可 以 用 soup.find， 然 后 提取 <a> 元 素 中 的 文字 ， 惑 可 以 得 到 第 
一 篇 文章 的 标题 了 ，strip() 的 功能 是 把 字符 串 左右 的 空格 去 掉 。find 只 是 用 来 找到 第 一 条 结果 ， 如 果 我 们 要 找到 所 有 结果 ， 就 需 
要 用 到 find all, find all 的 结果 是 一 个 列表 ， 从 中 提取 需要 的 标题 即 可 。 


5.2.3 ”BeautifulSoup 的 其 他 功能 


为 了 演示 BeautifulSoup 的 功能 ， 这 里 截取 博客 主页 的 一 段 代 码 : 


首先 ， 需 要 把 代码 转化 成 BeautifulSoup 对 象 : 


上 面 的 代码 看 起 来 比较 杂乱 ，soup 还 可 以 对 代码 进行 美化 : 


其 实 ，BeautifulSoup 对 象 是 一 个 复杂 的 树 形 结构 ， 它 的 每 一 个 节 扣 都 是 一 个 Python 对 和 象 ， 获取 网 页 内 容 束 是 一 个 提取 对 
象 内 容 的 过 程 。 而 提取 对 象 的 方法 可 以 归纳 为 3 种 : 


(1) ED] 

(2) 搜索 文档 树 

(3) CS9 选 择 器 
1. 人 遍历 文档 树 

首先 介绍 遍历 文档 树 的 方法 。 文 档 树 的 忆 历 方法 束 好 像 胞 树 一 样 ， 需 要 先 胞 到 树干 上 ， 然 后 慢 慢 到 小 树干 ， 最 后 到 树 校 上 ， 
束 可 以 得 天 需要 的 数据 了 。 例 如 ， 要 获取 <h3> 标 签 ， 只 需要 输入 : 


soup.header.h3 


得 到 结果 : <h3id="name"> 大 数据 @ 唐 松 Santos</h3> 

对 于 某 个 标签 的 所 有 子 节 点 ， 我 们 可 以 用 contents 把 它 的 子 节操 以 列表 的 方式 输出 : 
soup.header.div.contents 

得 到 的 结果 是 : 

[\n', 


<a href="http://www.santostang.com/feed/"rel="nofollow"target="_blank"title="RSS"><i aria-hidden="true"class="fa fa-tss"></i> 


</a>, 
\n, 


<a href="http://weibo.com/santostang"rel="nofollow"target="_blank"title="Weibo"><i atria-hidden="true"class="fa fa-weibo"></i> 


</a>, 
二 
我 们 可 以 看 人 到， 真实 的 <a> 标 签 都 在 contents 列 表 的 奇数 项 中 ， 其 他 的 都 是 \n'， 所 以 可 以 输入 : 
soup.header.div.contents[1] 


得 到 第 一 个 <a> 标 签 : <a href="http://www.santostang.com/feed/"rel="nofollow"target="_blank"title="RSS"> <i 


aria-hidden="true"class="fa fa-rss"></i></a>, 
我 们 也 可 以 使 用 children 方 法 获得 所 有 子 标签 : 


for child in soup: noeader div ehLldren: 
print (child) 


上 述 方 法 只 能 获取 该 节点 下 一 级 的 节操 ， 如 果 要 获得 所 有 子 子孙 孙 的 节点， 丈 要 用 .descendants 万 法 。 其 代码 如 下 : 


for child in soup.header.div.descendants: 
prelate (ena) 


除了 获取 子 节点 外 ， 还 可 以 使 用 .parent 方 法 获得 父 节 点 的 内 容 : 


ER OU 


a Lag«parene 
对 于 刚刚 的 <a> 节 点 ， 我 们 可 以 用 此 方法 获取 父 节 上 后。 得 到 的 结果 是 : 
<div class="sns"> 


<a href="http://www.santostang.com/feed/"rel="nofollow"target="_blank"title="RSS"><i aria-hidden="true"class="fa fa-rss"></i> 


</a> 


=M 


<a href="mailto:tangsongsky @gmail.com"rel="nofollow"target="_blank"title="envelope"><i aria-hidden="true"class="fa fa- 


envelope"></i></a></div> 


2. 搜 索 文档 树 
遍历 文档 树 的 方法 其 实 使 用 得 比较 少 ， 最 常用 的 是 搜索 文档 树 。 在 搜索 文档 树 时 ， 最 常用 的 是 find0 和 find_all0。 


对 于 find0 和 find_all0 的 使 用 ， 已 经 在 上 一 节 有 息 取 博客 主页 的 文章 标题 中 介绍 过 了 ， 这 里 就 不 再 重复 。 其 实 ，find0 和 
find all( 方 法 还 可 以 和 re 正则 结合 起 来 使 用 ， 例 如 : 


for tag un soup, Eno OO a: 


print (tag.name) 


输出 的 结果 是 : 
header 


h3 


上 面 的 例子 能 够 找 出 所 有 以 h 开 头 的 标签 ， 这 表示 <header> 和 <h3> 的 标签 都 会 被 找到 。 如 果 传 入 正则 表达 式 作为 参 
4, Beautiful Soup 就 会 通过 正则 表达 式 的 match() 来 匹配 内 容 。 


3.C9S9 选 择 器 
CSS 选 择 器 方法 既 可 以 作为 遍历 文档 树 的 方法 提取 数据 ， 也 可 以 作为 搜索 文档 树 的 方法 提取 数据 。 
首先 ， 可 以 通过 tag 标 签 逐 层 查 找 ， 例 如 : 
soup.select ("header h3") 


得 到 的 结果 是 : [<h3id= "name"> 大 数据 @ 唐 松 Santos</h3>] 


也 可 以 通过 某 个 tag 标 签 下 的 直接 子 标签 人 帝 历 ， 例 如 : 


print (soup.select ("header > h3")) 
print (soup.select ("div > a"™)) 


第 一 行 得 到 的 结果 和 前 面 一 样 ， 第 二 行 得 到 的 结果 是 <div> 下 所 有 的 <a> 标 签 ， 例 如 : 
[<h3id="name"> 大 数据 @ 唐 松 Santos</h3>] 


[<a href="http://www.santostang.com/feed/"rel="nofollow"target="_blank"title="RSS" <i aria- 
hidden="true"class="fa fa-rss"></i></a>,<a 
href="http://weibo.com/santostang"rel="nofollow"target="_blank"title="Weibo"> <i aria-hidden="true"class="fa fa- 


weibo"></i></a>.,...] 
CSS 选 择 器 也 可 以 实现 搜索 文档 树 的 功能 。 


例如 ， 要 找 所 有 链接 以 http://www.santostang.com/ 开 始 的 <a> 标 签 ， 代 码 如 下 : 
soup.select ('a[href*="http://www.santostang.com/"]"') 
得 到 的 结果 是 : 


aL 
f 


[<a  href="http://www.santostang.com/feed. rel="nofollow" target="_blank" 


title=""RSS"><1 aria-hidden="true" class="fa fa-rss"></1></a>, 
<a href="http://www.santostang.com/"> # J1 </a>, 
<a href="http://www.santostang.com/about-me/"> X F </a>, 
<a hre 仁 "http:/www.santostang.comy/post-search/"> 文 草 搜索 </a>， 


<a href="http://www.santostang.com/wp-login.php">% -K</a>] 


5.3 ”使 用 lxml 解 析 网 页 


前 面 我 们 介绍 了 BeautifulSoup 的 用 法 ， 它 已 经 非常 强大 。 还 有 一 些 比较 流行 的 解析 库 使 用 的 是 Xpath 语 法 (如 Ixml) ， 同 
样 是 效率 比较 高 的 解析 方法 。Ilxml 使 用 C 语 言 编 写 ， 解 析 速 度 比 不 使 用 lxml 解 析 器 的 BeautifulSoup 快 一 些 。 


5.3.1 |xm| 的 安装 


安 妆 BeautifulSoup 非 常 简单 ， 使 用 pip 安 妆 即 可 。 在 cmd 中 输入 : 


pip install bs4 


Cree MY LARS o 


5.3.2 ”使 用 :xml 获取 博客 标题 
使 用 xm| 提 取 网 页 源 代 码 数据 也 有 3 种 方法 ， 即 XPath 选择 器 、CS9 选 择 器 和 BeautifulSoup 的 find() 方 法 。 和 BeautifulSoup 
相 比 ，|xml 还 多 了 一 种 XPath 选择 器 方法 。 在 本 例 中 ， 我 们 将 使 用 :xml 中 的 XPath 选择 器 来 获取 标题 。 


XPath 是 一 门 在 XML 文档 中 查找 信息 的 语言 。XPath 使 用 路 径 表 达 式 来 选取 XML 文档 中 的 节点 或 节点 集 ， 也 可 以 用 在 HTML 
获取 数据 中 。 


获取 博客 主页 所 有 文章 标题 的 代码 如 下 : 


import requests 


from lxml import etree 


link = "http://www.santostang.com/" 

headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 
6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6"} 

r = requests.get (link, headers= headers) 


html = etree.HTML(r.text) 
title list = html.xpath('//h1[@class="post-title"]/a/text()') 
polar rw aS 


运行 上 述 代码 ， 得 到 的 结果 是 : 


[Hello Pythonl ,echarts 学 习 笔 记 (2) 一 同一 页 面 多 图 表 , echarts5) Sid (1) CB SSIA (MB) Me BASE 
MENNE, EE] RAPER, FA, Hello world!’ 


和 BeautifulSoup 类 似 ， 使 用 xmI 的 时 候 需 要 先 用 html=etree.HTML(r.text) 解 析 为 |xml 的 格式 ， 然 后 用 XPath 读 取 里 面 的 内 


hy 
4 
o 


其 中 ，"Wh1 "代表 选取 所 有 <h1> 子 元 素 ，"// 无论 在 文档 中 什么 位 置 ， 后 面 加 上 [@class= "postr-title"] 表 示 选 取 <h1> 中 
class 为 "post-title" 的 元 素 ，/a 表 示 选 取 <h1> 子 元 素 的 <a> 元 素 ，/text0 表 示 提 取 <a> 元 素 中 的 所 有 文本 。 


得 到 的 结果 和 之 前 BeautifulSoup 方 法 的 结果 相同 。 从 上 述 代码 来 看 ，Ixml 使 用 XPath 的 方法 比较 麻烦 ， 而 BeautifulSoup 
的 find all 更 加 简单 一 些 。 


虽然 XPath 看 起 来 比较 麻烦 ， 但 是 Chrome 的 “检查 ”功能 提供 了 很 好 查找 XPath 的 工具 。 下 面 介绍 查找 任意 一 个 元 素 
XPath 的 方法 。 


步骤 01 使 用 Chrome 打 开 博 客 主页 http://www.santostang.com/， 右 击 页 面 任意 位 置 ， 在 弹出 的 快捷 菜单 中 单 击 “ 检 
命令 ， 显 示 如 图 5-1 所 示 的 页 面 。 


oO 


fi ，santcs1993 贺 


Echarts python KEE i= 
Hello world! mw PERM SR 


大 数 握 @ 唐 松 Welcome to WordPress. [his is your first post. Edit or delete it, then start writing! 
Santos 友情 链接 


=~ == © — 
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¥ <body class=" customize-support” id=“cummybodyid" See na | 
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Vediv id-"main’ Qmedia (min-width: 992px} 
¥cgiv class-"row box’ .col-md-4 { 
: : before width: 33.33333333%; 
> <div class-"col-md-8">.„4/div 
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Filter 


nadia (min-widtnh: 992px) 


footer id-"footer” >..4/footer> 
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script type="text/javascript™ sr 
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der 
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图 5-1 使 用 Chrome 打 开 检 查 页 面 


步骤 02 ” 单 击 页 面 堪 上 角 的 “鼠标 ”按钮 ， 在 网 页 中 单 击 要 提取 的 数据 ， 如 最 后 一 篇 文章 Hello World 的 标题 ， 可 以 看 到 在 
代码 中 定位 到 了 该 文章 标题 的 位 置 ， 如 图 ?-2 所 示 。 


DE 
Hello world! 


$ 

‘Welcome to WordPress. This is your first post. Edit or delete it, then start writing! 
Add attribute 

Edit attribute 
Edit as HTML 


[x á] Elements Ei ey Application Security Audits Adblock Plus 
一 一 Copy Copy outerHTML 


Santos. 


<html lang="zh-CN" > : Copy selector 

> #shadow-root (ope Hide element 
> <head>..</head Copy XPath 
Vv <body class=" cus 
> <header id="hea 
V<div id="main” Expand all Copy element 
V<div class="ri 

;: before 
V<div class=" 
‘article 
‘article 
<article 
‘(article 
<article 
<article 
:: before 
Y <header Scroll into view 
: :befo 
<h1l cl Break on... 

ai — -_ — ï - Hello world!</a 


Delete element 
Cut element 


Collapse all Dinta alcia 


:active earfix”>..</article 


:hover earfix">..</articie 

earfix"”>..</article 
‘focus earfix”>..</article 
earfix”>..</article 


visi 
isited earfix" 


人 


图 5-2 ”定位 到 标题 的 位 置 


步骤 03 ” 右 击 该 元 素 ， 在 快捷 菜单 中 选择 Copy 一 Copy XPath， 这 样 这 个 元 素 的 XPath 束 可 以 复制 到 音 贴 板 ， 粘 贴 之 后 ， 得 
BlizXPath7Z//*[@id="main"]/div/div[1]/article[6]/header/h1/a, 


使 用 Chrome 的 “检查 ”方法 可 以 很 快 找到 一 个 元 素 的 XPath， 配 合 lxml 使 用 ， 提 取 元 素 更 加 方便 快捷 。 


5.3.3 XPath 的 选取 方法 


XPath 使 用 路 径 表 达 式 可 以 在 网 页 源 代码 中 选取 节点 ， 它 是 沿 着 路 径 来 选取 的 ， 如 表 5-3 所 示 。 


表 5-3 XPath 路 径 表 达 式 及 其 描述 


nodename 选取 此 节点 的 所 有 子 节 点 


从 匹配 选择 的 当前 节点 选择 文档 中 的 节点 ， 而 不 考虑 它们 的 位 置 
| 选取 当前 节点 
选取 当前 节点 的 父 节点 


下 面 是 一 个 XML 文档 ， 我 们 将 用 XPath 提取 其 中 的 一 些 数 气 。 


表 5-4 列 出 了 XPath 的 一 些 路 径 表 达 式 及 其 结果 。 
表 5-4 路径 表达 式 及 其 结果 


路 径 表 达 式 
选取 bookstore IRINE STIA 


注释 : 假如 路 径 起 始 于 正 冬 杠 (/ )， 此 路 径 始 终 代 表 到 东 元 了 条 的 绝对 路 径 


选取 属于 bookstore 子 元 素 的 所 有 book 元 素 
选取 所 有 book 子 元 素 ， 无 论 它 们 在 文档 中 什么 位 置 
bookstore//book | 选择 属于 bookstore 元 这 后代 的 所 有 book 元 素 ， 无 论 它 们 位 于 bookstore 下 
的 什么 位 置 


表 5-5 忆 结 了 各 种 HTML 解 析 器 的 优 缺 后 。 


表 5-5 HIML 解 析 器 的 优 缺点 


_HTML 解析 器 。 易 用 ' | 提取 数据 方式 
正则 表达 式 正则 表达 式 


Find 方法 
( RAT) 
BeautifulSoup H AEH lxml 解析 Ce CSS 选择 器 


_ 简单 XPath 
ai i CSS 选择 器 


如 果 你 面 对 的 是 复杂 的 网 页 源 代码 ， 那 么 正则 表达 式 的 书写 可 能 会 花费 较 长 时 间 ， 这 时 选择 BeautifulSoup 和 Ixml 比 较 简 


单 。 由 于 BeautifulSoup 已 经 支持 lxml 解 析 ， 因 此 速度 和 |xml 差 不 多 ， 可 以 根据 使 用 者 的 熟悉 程度 进行 选择 。 因 为 学 习 新 的 方法 
也 需要 时 间 ， 所 以 熟悉 XPath 的 读者 可 以 选择 lxml。 假 如 你 是 初学 者 ， 快速 营 握 提取 网 页 中 的 数据 ， 推 荐 使 用 


BeautifulSoup 的 find 方 法 。 


5.5 BeautifulSoupf@ sere: 房屋 价格 数据 


本 章 的 实践 项 目 是 获取 安居 客 网 站 上 北京 二 手 房 的 数据 。 本 项 目 需要 获取 前 10 页 二 手 房 源 的 名 称 、 价 格 、 几 房 几 厅 、 大 
建造 年 份 、 联 系 人 、 地 址 、 标 签 。 网 页 地 址 为 : https://beijing.anjuke.com/sale/, 


5.5.1 网 站 分 析 


打开 安居 客 北京 二 手 房 的 网 页 ， 然 后 使 用 “检查 ”功能 查看 该 网 页 的 请 求 头 ， 如 图 ?-3 所 示 。 


£F itkaa UA SE tá 


2% SOBWEF -10m5 100-1504 50-200 


LIQNJIC. Hz 


display ontang/Sfo67b ster tesgdel a7 26 FSS backs /20eK ree Joe’. This content should also be served over HTTPS. ~ 
图 5-3 ”安居 客 北京 二 手 房 的 网 页 


首先 ， 我 们 需要 定位 网 页 各 个 元 素 所 在 的 地 址 。 利 用 第 4 草草 未 实践 提 到 的 方法 可 以 定位 各 个 元 素 所 在 的 地 址 ， 得 到 如 表 5- 


6 所 示 的 表格 。 


表 5-6 定位 到 各 个 元 素 所 在 的 地 址 


元 素 Ei 
某 房屋 所 有 数据 
房屋 名 称 
em ee 
几 军 几 厅 div, class= details-item > span 


面积 div, class= details-item > contents| 3] 


div, class= details-item > contents[3] 


地 址 
建造 年 份 div, class= detalls-ltem > contents| 7] 


房屋 中 介 span, class= brokername 


地 址 span, class= comm-address 


标签 span, class= item-tags 


5.5.3 HARSCH 


在 本 章 的 实 跤 中 仪 获取 了 搜索 结果 的 房 源 数 据 ， 如 果 我 们 能 够 进入 每 个 房 源 的 页 面 ， 融 可 以 获取 更 多 数据 ， 如 图 5-4 所 示 。 


EENS 4 室 独 栋 出 售 户型 方正 青 北 通 透 朝向 = 


1100; de2F 360tr4 Bossi 


E- 


FAE 


am = 
ian 


at a=]. 
ETEL 


pet a= a Manke tom 
网 迪 地 加 Noha ai , 


A ey | F 
— | 


RES 


Eee eM: 4a ofr ay cee Ei 
Ee- PREE- pee O aH: SFAH 


7% 90655 sp /nr 
Radi Gil > 330.005 
= Hep tae) 4319370 


图 5-4 ”获取 搜索 结果 的 房 源 数 据 


读者 若 有 时 间 ， 可 以 尝试 进入 上 述 房 源 的 页 面 ， 获 取 其 中 的 各 项 数据 ， 如 小 区 名 称 、 房 屋 类 型 、 房 屋 朝 向 、 参 考 首付 等 。 


BOR ”数据 存储 


本 章 主 要 介绍 两 种 仓储 数据 的 万 法 : 存储 在 文件 中 和 存储 在 数据 库 中 。 当 我 们 完成 肛 取 网 页 并 从 网 页 中 提取 出 数据 后 ， 需 要 
把 数据 保存 下 来 。 本 草 将 介绍 两 种 保存 数据 的 方法 : 


(1) 存储 在 文件 中 ， 包 括 TXT 文 件 和 和 CSV 文件 。 


(2) 存储 在 数据 库 中 ， 包 括 MySQL 关 系数 据 库 和 MongoDB 数 据 库 。 


6.1 基本 存储 : 存储 至 TXT 或 CSV 


6.1.1 ”把 数据 和 仔 储 全 TXT 


把 数据 存储 至 TXT 文 件 的 万 法 非常 信 单 。 在 前 面 几 草 ， 特 别 是 在 第 2 章 的 “编写 你 的 第 一 个 胞 虫 ” 中 应 该 已 经 试 过 把 数据 存 
储 至 TXT 了 。 存 储 时 仅 需 要 几 行 代码 : 


title = "This is a test sentence." 


with open('C:\\you\\desktop\\title.txt', 
Fsawel Ter tities) 
f.close() 


"at" as f: 


ih, with open(C:\\you\\desktop\\title.txt',"a+")as 下 的 a+ 为 Python 文 件 的 读 瑟 模式 ， 表 示 将 对 文件 使 用 附加 读 瑟 方 
式 打 开 ， 如 果 该 文件 不 存在 ， 就 会 创建 一 个 新 文件 。 除 了 a+ 以 外 ， 还 有 其 他 几 种 打开 文件 的 方式 ， 如 表 6-1 所 示 


表 6-1 几 种 打开 文件 的 方式 


著 文件 不 存在 方式 


wt LH 

E E a T E 
rt | 读 取 + 写 入 H Miti A 
AAA T sx 


at | 读 取 + 写 入 


根据 不 同 的 需要 ， 我 们 可 以 及 用 不 同 的 方式 打开 文件 。 一 般 在 读 取 文件 的 时 候 可 以 使 用 r 万 式 ， 如 果 文 件 不 存在 ， 束 会 返回 
错误 ， 而 且 无 法 向 该 文件 中 写 入 数据 ， 这 样 束 保证 了 读 取 文件 的 可 靠 性 。 在 写 入 文件 的 时 候 


， 我 们 可 以 选择 a+， 数 据 会 在 文件 
最 后 添加 进去 ， 不 会 影响 原 有 的 数据 ， 如 果 该 文件 不 仔 企 ， 融 会 创建 一 个 新 的 文件 。 


上 面 的 代码 为 什么 要 用 两 个 有 反 和 斜 村 “"\” 呢 ?第 5 章 介绍 正则 表达 式 时 有 过 说 明 ， 第 一 个 有 反 和 斜 杠 在 编程 语言 中 会 被 当 作 转 义 
字符 ， 如 “\n” 代 表 换 行 符 ， 


因此 “其实 代 表 的 是 一 个 反 斜 村 。 如 果 加 上 正则 表达 式 ， 文 件 地 址 也 可 以 表示 为 : 


With open (rC: ryo desktopi tlie tzt; tas: 


会 把 里 面 的 内 容 当 作 纯 粹 的 字符 串 (raw string) AE., AMID REAM, EARE LARHI "" RS, ete 
with open('C:/you/desktop/title.txt’,"a+")as f:, 


综 上 所 述 ， 地 址 可 以 写成 如 下 3 种 形式 : 

(1) with open('C:\\you\\desktop\\title.txt’,"a+")as f: 
(2) with open(r'C:\you\desktop\title.txt',"a+")as f: 
(3) with open('C:/you/desktop/title.txt’,"a+")as f: 


有 时 需要 把 几 个 变量 写 入 TXT 文件 中 ， 这 时 分 隅 竺 融 比 较 重要 了 。 可 以 采用 Tab 进 行 分 隔 ， 因 为 在 字符 串 中 一 般 不 会 出 现 


Tab 符 号 。 用 \t Join( 将 变量 连接 成 一 个 字符 串 的 代码 如 下 : 
output = '\t'.join(['name','title','age', 'gender']) 
with open('C:\\you\\desktop\\test.txt', "at+") as f: 
f.write (output) 


t.close () 


得 到 的 结果 如 图 6-1 所 示 。 


司 | test.txt - 记事 本 


文件 ( SE ”格式 (Dj BBV) EH) 


| name title age gender 


图 6-1 显示 结果 


有 了 时 还 需要 读 取 TXT 文 件 中 的 数据 ， 和 写 入 数据 的 方式 非 党 类 似 ， 把 write 改 成 read 即 可 ， 代 码 如 下 : 


ee —"UIr-s') as T: 
result = £.read() 
Pring (nesulr) 


得 到 的 结果 是 : This is a test sentence, 


6.1.2 ”把 数据 存储 至 CSV 
CSV (Comma-Separated Values) 是 逗号 分 隔 值 的 文件 格式 ， 其 文件 以 纯 文本 的 形式 存储 表格 数据 (数字 和 文本 ) 。 
CSV 文 件 的 每 一 行 都 用 换行 符 分 隔 ， 列 与 列 之 间 用 逗号 分 隔 。 


相对 于 TXT 文件 ，CSV 文 件 既 可 以 用 记事 本 打开 ， 又 可 以 用 Excel 打 开 ， 表 现 为 表格 形式 。 由 于 数据 用 逗号 已 经 分 隔 开 来 ， 
因此 可 以 十 分 整齐 地 看 到 数据 的 情况 ， 而 TXT 文 件 经 党 遇 到 变量 分 隔 的 问题 。 此 外 ，CSV 文 件 存 储 同 样 的 数据 占 的 大 小 也 和 TXT 
文件 差不多 ， 所 以 在 Python 网 络 爬 虫 中 经 音 用 来 仓储 数据 。 


CSV 的 使 用 分 为 读 取 和 写 入 两 方面 ， 首 先 介 绍 CSV 的 读 取 。 


如 图 6-2 所 示 ， 我 们 可 以 使 用 Excel 创 建 一 个 文件 ， 里 面 的 表格 是 4x4 的 ， 之 后 另存 为 CSV， 文 件 名 为 test.csv， 并 放 在 


Jupyter 文 件 夹 中 。 


图 | Hy- - zl `I R-S Y JÄ = test.csv - Excel 2 fey — A £3 


开始 fA 页 面 布局 


图 6-2 ”Excel 保存 的 test.csv 


下 面 尝 试 使 用 Python 读 取 test.csv 中 的 数据 。 


得 到 的 结果 是 : 


[‘A1','B1','C1',/D1'] 


A1 


['A2','B2','C2','D2'] 


A2 


[A3，B3，C3，D3 


A3 


['A4','B4','C4','D4'] 


A4 


可 见 csv _reader 把 每 一 行 数据 转化 成 了 一 个 列表 (list) ， 列 表 中 从 左 至 右 的 每 个 元 素 是 一 个 字符 串 。 


接 下 来 介绍 把 数据 写 入 CSV 的 方法 ， 我 们 可 以 将 变量 加 入 到 一 个 列表 中 ， 然 后 使 用 writerow() 方 法 把 一 个 列表 直接 写 入 一 列 
中 ， 代 码 如 下 : 


import OSY 
Outpul ise = le, “27 os 7 = | 
with open('test2.csv', ‘at+', encoding='UTF-8', newline='') as 
csvfile: 
w = cSv.writer(csvfile) 


w.writerow (output list) 


用 Excel 打 开 结 果 test2.csv， 如 图 6-3 所 示 。 


图 6-3 ”显示 test2.csv 的 结 


6.2 存储 至 MySQL 数 据 库 


MySQL 是 一 种 天 系数 据 库 管理 系统 ， 所 使 用 的 是 3QL 语 言 ， 是 访问 数据 库 最 单 用 的 标准 化 语言 。 天 系数 气 库 将 数据 保 仓 在 
不 同 的 表 中 ， 而 不 是 将 所 有 数据 放 在 一 个 大 仓库 内 ， 这 样式 增加 了 写 入 和 提取 的 速度 ， 数 据 的 存储 也 比较 灵活 。 


什么 是 关系 型 数据 库 呢 ? 就 是 建立 在 天 系 模型 基础 上 的 数据 库 。 例 如 ， 存 储 A 先生 的 个 人 信息 (性 别 、 年 龄 等 ) 和 购买 记 
录 ， 我 们 可 以 把 所 有 的 信息 放 在 一 个 大 表 中 ， 如 果 采 取 这 样 的 方法 ， 要 增加 或 减少 一 个 变量 就 要 变动 大 部 分 数据 ， 显 得 十 分 腕 
肿 。 关 系 型 数据 库 就 解决 了 这 个 问题 ， 它 把 个 人 信息 放 在 “用 户 ” 表 中 ， 购 买 记录 放 在 “购买 记录 ” 表 中 ， 用 A 先生 的 用 户 id 作 
为 主 关 键 字 (primary key) 把 两 个 表 关 联 起 来 。 


由 于 MySQL 关 系数 据 库 体 积 小 、 速 度 快 而 且 免 费 ， 因 此 在 网 络 乳 虫 的 数据 存储 中 作为 党 用 的 数据 库 。 


6.2.3 ”Python 操作 MySQL 数 据 库 


我 们 已 经 熟悉 了 MySQL 的 一 些 操 作 ， 如 何 用 Python 操 作 MySQL 呢 ? 下 面 将 把 Python 网 络 胞 虫 和 和 MySQL 数据 库 连 接 起 来 进 


行 介绍 。 


首先 ， 需 要 用 pip 安 装 mysdlclient 库 ， 连 接 Python 和 MySQL。 在 命令 行 中 输入 : 


Dip Install mysqbeltent 


安装 完成 后 ， 我 们 可 以 尝试 用 Python 操 作 MySQL， 在 数据 库 中 插入 数据 : 


#coding=UTF-8 
import MySQLdb 


conn= MySQLdb.connect (host='localhost' , user='root', 
passwd='root', db ='scraping') 
Ct = Conn cVreort) 


CUr Execute lt TI NSERT INTO mels “(iris Content). VALUES 
( *Wuiw. bata Com .. 7 Tne 1s Contente yT) 

cur.close() 

Conn eo 

Conn. close te) 


打开 MySQL 5.7Command Line Client-Unicode， 查 看 一 下 结果 。 如 果 结 果 如 图 6-18 所 示 ， 就 表示 成 功 插入 了 一 行 新 的 数 
据 。 


mysql> SELECT * FROM scraping-.urls; 


www.google.com Google 201/ -04-01 20: 
www.baidu.com | This is content. 2017-04-01 21: 31; 10 
ne ee ete ee ee + 


图 6-18 ”插入 新 的 数据 


其 中 ，conn=MySQLdb.connect0 用 于 创建 数据 库 的 连接 ， 里 面 可 以 指定 参数 (用 户 名 、 密 码 、 主 机 等 信息 ) 。 
cur=conn.Cursor(0 通 过 获取 的 数据 库 连 接 conn 下 的 cursor() 方 法 来 创建 和 游标。 之后， 通过 游标 cur 操 作 execute() 方 法 可 以 写 入 
纯 SQL 语 句 。 


最 后 ， 在 完成 对 MySQL 数 据 库 的 操作 后 ， 记 得 关闭 游标 cur 和 连接 conn。 


接 下 来 ， 束 可 以 把 之 前 在 博客 拒 取 的 标题 和 url 地 址 使 用 Python 和 存储 到 MySQL 数 据 库 中 了 ， 代 码 如 下 : 


在 Jupyter 中 输入 上 面 的 代码 ， 执 行 的 时 候 报错 : 


UnicodeEncodeError:'latin-1'codec can't encode characters in position 7-10:ordinal not in range(256) 


因为 博客 的 标题 为 中 文 ， 所 以 在 编码 上 出 现 了 问题 。 因 此 ， 在 连接 数据 库 的 时 候 需要 将 编码 指定 为 UTF-8。 


修改 之 后 再 运行 一 次 。 得 到 的 结果 如 图 6-19 所 示 。 


created_time | 
Google 2017-04-01 20:57:46 
2017-04-01 21:31:10 
2017-04-01 21:46:48 


www. googie. com 
www. baidu. com This is content. 
http: /fwww.santostang.com/2017/03/08/hello-.,. Hello Python! 

http://www.santostang.com/2017/03/07/echar... ehas¥ ygi- 同一 页 面 多 图 表  2017040121:46:48 


http: //Awww.santostang.com/2017/03/07/echar... echartsS*#=)2i2(1) 一 TERE ESIA 2017-04-01 21:46:48 


2017-04-01 21:46:48 
2017-04-01 21:46:46 


http:/Avww.santostang.com/2017/03/06/%e3... 
http: /Awww. santostang.com/'2017/03/06/%e3... 


本 节 讲 述 了 Python 操 作 MySQL 数 据 库 的 一 些 基 本 命令 ,包括 如 何 执行 MySQL 命 令 和 插入 数据 。 如 果 还 想 深 入 学 习 
MySQL， 可 以 参考 网 上 的 菜鸟 教程 : http://www.runoob.com/python/python-mysql.html。 


6.3 ”存储 至 MongoDB 数 据 库 


在 网 络 有 他 虫 的 时 候 需 要 存储 大 量 数据 ， 和 而 且 有 时 有 息 取 返回 的 数据 是 JSON 格 式 ， 这 时 选择 使 用 NoSQL 数 据 库存 储 束 容易 多 
了 。 本 节 将 介绍 使 用 NoSQL 中 非 剃 流行 的 MongoDB 作 为 数据 库 。 


NoSQL 泛 指 非 关系 型 数据 库 。 传 统 的 SQL 数 据 库 把 数据 分 隔 到 各 个 表 中 ， 并 用 关系 联系 起 来 。 但 是 随 着 Web 2.0 网 站 的 兴 
起 ， 大 数据 量 、 局 并 友 环 境 下 的 MySQL 扩 展 性 差 ， 大 数据 下 读 取 ， 写 入 压力 大 ， 表 结构 更 改 困难 ， 使 得 MySQL 应 用 开 妈 越 来 赵 
复杂 。 相 比 之 下 ，NoSQL 目 诞生 之 初 束 容易 扩展 ， 数 据 之 间 无 关系， 具有 非常 高 的 读 写 性 能 。 


6.3.1 下 载 安 家 MongoDB 


MongoDB 是 一 球 基于 分 布 式 文件 存储 的 数据 库 ， 本 身 丈 是 为 了 为 Web 应 用 提供 


可 扩展 的 高 性 能 数据 人 存储。 因此， 使 用 MongoDB 和 存储 网 络 肛 虫 的 数据 再 好 不 过 了 。 下 面 将 介绍 Windows 系 统 中 
MongoDB 的 下 载 和 安装 方式 。 


254201 _ 下载 MongoDB。 进 入 MongoDB 的 下 载 页 面 (https://www.mongodb.com/download- 
center#community) ， 下 载 Windows 的 msi 版 本 ， 如 图 6-20 所 示 。 


Community Server Enterprise Server Ope Manager Compass Connector for Bl 


ent Release | Previous Aeleases | Development Releases 


Current Stable Release (3.4.3) 


03/27 /P01L7: Release Notes | Changelog ma Windows FA Linux @ Osx Solaris 
Download Source: tge | zip 


Versio: 


Windows Server 2008 R2 64-bit and later, with SSL support wet 


Installation Package: 


图 6-20 下载 MongoDB 


步骤 02 ”安装 msi 程 序 。 下 载 后 双击 安 六 程序， 安 六 过 程 非常 简单 ， 可 以 选择 Complete 安 装 完 整 版 本 ， 也 可 以 选择 
Custom 自 己 定制 安装 。 为 了 方便 安装 ， 可 以 直接 选择 Complete， 如 图 6-21 所 示 。 完 成 后 程序 默认 在 C:\Program 
Files\MongoDB 中 。 


划 MongoDB 3.4.3 2008R2Plus ssL (64 bit) Setup b= 


Choose Setup Type 
Choose the setup type that best suits your needs 


All program features will be installed. Requires the most dak space. 
Recommended for most users. 


Allows users to choose which program features will be installed and where 
they will be installed, Recommended for advanced users, 


图 6-21 选择 安装 类 型 


步骤 03 ”创建 文件 夹 。 在 C 盘 创建 C:\data\db 和 C:\data\log 两 个 文件 夹 ， 如 图 6-22 所 示 。 


组 织 = ses» 
Tre 
m =n 


型 最 近 访 问 的 位 下 


m 点 面 
aa = 
| 
A DIDO 
m 计算 机 


图 6-22 ”创建 文件 夹 


然后 在 log 文 件 夹 下 创建 一 个 日 志文 件 mongodb.log， 地 址 为 C:\data\log\mongodb.log， 如 图 6-23 所 示 。 


> 计算 机 + WINDOWS (C) + data + log 


pirm aT j 
H&E w= =- EEA e a 
>= TE A 


= 


=| mongodb_log 


图 6-23 ”创建 log 文 件 


data 文 件 夹 ， 顾 名 思 义 是 用 来 存放 MongoDB 数 据 的 文件 夹 。 其 中 ，db 文 件 夹 用 来 存放 MongoDB 的 数据 库 
(database) ，log 文 件 夹 用 来 存放 数据 库 的 操作 记录 。 


创建 MongoDB 的 数据 库 文 件 。 打 开 cmd.exe， 输 入 cd C:\Program Files\MongoDB\Serven\3. 人 bin， 跳 转 到 
MongoDB 所 在 的 文件 夹 。 然 后 输入 mongod.exe--dbpath ci\data\db， 此 命令 可 以 将 MongoDB 的 数据 库 文件 创建 到 已 经 建 
好 的 ci\data\db 文 件 夹 中 ， 如 果 创 建成 功 ， 可 以 看 到 如 图 6-24 所 示 的 情况 。 


m Elem: C\Wincows\system32\cmd.exe - mongod.exe --dbpath c:\data\db | =LA 一 2 一 | 


YA. [ 
CG: Wsers SHdministratorecd GCG: “Program Files‘fongoUb servers .4501n 


C:\Program Files *\MongoDE\Server*s3 .4sbin>mongod.exe --dbpath c:data*db 

241 7-84-65 T1862351:31.376+H888H I CORTROL Cinitandlisten] MongoDB starting : pid=2 
538 port=27017 dbpath=cisdatas.db 64-bit host=SKYUSER—2R7RBHT 

2617-84-85 T16291:31.35857*H68HH I CONTROLD CLiniteandlisten!] targethinO$: Windows Yel 


CONTROL LCinitandlisten] db version v3.4.3 
241 7-84-6571 8231:31.385+886H I CONTROL Cinitandlisten] git version: fFR/43 7Fbo5ab 
ccabyvclBhaf af%6365456ebldbd5el 
Ad /Y—-B4—057T1 A 231:251_- 3826-0800 CONTROL Linitandlisten] OpenSSL uersion: OpenSSL 
1.H.1iu-fips 22 Sep 2016 
241 /—-84—-057T18251°231.356 +6868 CONTROL Cinitandlisten] allocator: tcmalloc 
¥—-H4-B85T16-31-31.3539 7-0800 CONTROL LCinitandlisten] modules: none 
Y—-64-805T16231:31.39 7460808 CONTROL Canitandliscten] build environment: 
241 7-84-6571 82351231. 389 748808 CONTROL Cinitandlisten] distmod: 26H8plus—ss 
1 
281 7-BH4-857180231:531.38 74+H8HH CÜNT ROL LCinitandlisten ] cdistarch: x#6_64 
2417 —-B4—-65T16231:31.398 +6848 CONTROL (LCinitandlisten ] target_arch: x#6_64 
2801 Y—B4—-657T18231:31. 3588 +8808 CONTROL LCinitandlisten!] options: © storage: * dh 
Path: "cisdatasdb" F? + 
2414-65718 231°2591. 374468 0H + ORAGE Linitandlisten] wiredtiger_open config: MW 


图 6-24 创建 数据 库 


使 用 MongoDB 主 要 有 两 种 局 动 方式 ， 一 种 是 以 程序 的 方式 打开 ， 另 一 种 是 以 Windows 服 务 的 方式 打开 。 在 使 用 
MongoDB 时 ， 一 般 使 用 Windows 服 务 的 方式 打开 ， 这 样 比较 方便 。 下 面 介绍 这 两 种 局 动 方式 。 


使 用 MongoDB 的 程序 局 动 方式 。 打 开 MongoDB 安 丢 文 件 夹 ， 黑 认为 CNXProgram 
Files\MongoDB\Serven\3. 人 bin， 找 到 mongod.exe 双 击 打开 (注意 有 d 的 为 局 动 程序 ) 。 局 动 程序 后 ， 再 运行 nongo.exe 程 
Fe Gd) ， 如 图 6-25 所 示 。 


天 T a RE a re Pn Syst as platy: 
NgeU DS) server ya DIN Mongoa.exs 


WongoDR shell version v3.4.3 
connecting to: mongodb: 7/127 .86.8.1:276817 
MMongoDB server version: 3.4.3 
Welcome to the MonogoDB shell. 
[For interactive help. type "help". 
For more comprehensive documentation, see 
http: -/-/docs .mongodh.org-/ 
Questions?’ Try the support group 
http: groups -google _com/qroup-mongodh—-user 
Server has startup warnings: 


2617-64-65 T1LO-38-18.577+68866 I CONTROL  LCinitandlisten] 


2417-64-05 T18:38:18 59° 7+88HH I CONTROL [initandlisten] ** WARMING: Access contr 


Ol is not enabled for the database. 


2017-G4—G5T1G-:38-:18.597+0800 I CONTROL L[initandlisten] =% Read and wri 


te access to data and configuration is unrestricted. 

241 7-H4—-B5 T1238 218 .577+080ġ6 I CONTROL CLinitandlisten] 

261 7-84—65T16:38:18.597+8806 I CONTROL L[Linitandlisten] Hotfix KB2731284 or late 
r update is not installed. will zero-out data files. 

261 7—-B4—@85T16:36:18 .5°97+68806 I GOHTROL [CLinitandlisten] 

? Show dbs 

admin .GH 


local &4.8HHGE 
> 


图 6-25  Himongo.exe Fz /> 


在 其 中 可 以 操作 MongoDB 数 据 库 ， 例 如 输入 : 


show dbs 


可 以 查看 所 有 数据 库 。、 当 mongod.exe 被 关闭 时 ，mongo.exe 就 无 法 连接 到 数据 库 了 ， 因 此 每 次 想 使 用 mongodb 数 据 库 时 
都 要 开启 mongod.exe 程 序 ， 比 较 麻 烦 。 相 比 之 下 ， 以 Windows 服 务 的 方式 打开 就 方便 得 多 。 


以 Windows 服 务 的 方式 打开 。 以 管理 员 的 身份 运行 cmd.exe， 输 入 : 


cd C:\Program Files\MongoDB\Server\3.4\bin 


Wik M ongoDB2zze A RADINICSE, ZARA: 


mongod.exe --logpath "C:\data\log\mongodb.log" --logappend 
--dbpath "C:\data\db" --serviceName "MongoDB" --install 


这 里 MongoDB.log 就 是 开始 建立 的 日 志文 件 ，--serviceName"MongoDB" 服 务 名 为 MongoDB。 这 时 ，Windows 服 务 运 
行 模 式 已 经 安 半 完成 了 ， 接 下 来 要 局 动 MongoDB， 再 输入 : 


net. Stare Mongoeve 


如 果 看 到 如 图 6-26 所 示 的 界面 ， 束 表示 MongoDB 已 经 成 功 司 动 了 。 


ow 管理 员 ; C:\Windows\system32\cmd.exe 


> Program Files ongoDB Server™i.4“hbinmongod.exe ——logpath "G:wata™“ log mongodEa 
b.log" ——logappend --dbpath “Cli *%data*sdb" ——serviceName “MongoDE™ ——install 


“Program Files“ MongoDB erver™i.4“binnet start MongoDE 


MongoDB 服务 下 1 二 局 到 
Mongo DH Ale ae | H3 =F NAY 


GC"Program Files*MongoDB*Server’3 .4sbin> 


图 6-26 ”成 功 启 动 MongoDB 


6.3.2 MongoDB 的 基本 概念 


为 了 更 好 地 理解 MongoDB 的 基本 概念 ， 如 文档 、 集 合 和 数据 库 ， 我 们 可 以 将 MongoDB 和 SQL 的 一 些 概念 进行 比较 ， 如 表 
6-2 所 示 。 


表 6-2 ”SQL 与 MongoDB 术 语 的 比较 


SQL 术语 ”MongoDB 术语 “解释 /说 明 
database BAS, JAE 

数据 库 表 / 集 合 
数据 记录 行 /文档 


column field 效 据 字段 / 域 
index index 有 索引 | 
table joins 连接 


j f ~ ` £ a E OI 
primary key primary key NgC 动 将 id 字段 设置 为 主键 


我 们 可 以 使 用 SQL 的 概念 理解 MongoDB， 如 MongoDB 中 的 集合 (collection) 类 似 MySQL 中 的 表格 ， 文 档 
(document) 类 似 MySQL 中 的 数据 记录 行 (row) ， 域 (field) 类 似 MySQL 中 的 数据 字段 (column) 。 


图 6-27 展 示 了 一 个 例子 ， 根 据 此 例 可 以 更 好 地 理解 MongoDB 的 一 些 概 念 。 


{ 

“ id’: ObjectiD(6265d58ddc7Sad61dfle5286), 
“city” 7 tt 南 yt 市 ” 

"park": “TWAS il”, 

“location_lat”: 32.0786 , 

“location_|ng”: 118.8 


id è aty park locaton_lat lacation _Ing 
>» 1 Rm Bre) 32.0786 118.8 É z 
2 Beth wees 32.1281 118.665 “id”: ObjectiD(f633606a1b34ba4e0b69d9fc}, 


“city”: Ba i 市 ” 
"park": “珍珠 泉 公园 “ 
“location_lat”: 32.1281, 
“location_Ing”: 118.665 


I 


图 6-27 显示 SQL 与 MongoDB 对 应 的 关系 


不 过 MongoDB 与 SQL 数据 库 有 很 大 区 别 ，MongoDB 的 文档 不 需要 设置 相同 的 字段 ， 并 且 相 同 的 字段 不 需要 相同 的 数据 类 


型 ， 如 图 6-28 所 示 。 


| 
“id”: ObjectID(6265d58ddc79ad61df1e52386), 


“city”: “Ra st Thi”, 
“park”: “玄武 湖 公 园 ” 
“location lat”: 32.0786, 
“location Ing”: 118.8 

| 


{ 
“id”: ObjectID(f633606a1b34ba4e0b69d9fc), 


“name”: “Peter”, 

“email”: “peter@gmail.com”, 
“age”: 18, 

“city”: “Abii” 

| 


图 6-28 MongoDB 的 文档 不 需要 设置 相同 的 字段 


6.3.3 ”Python 操作 MongoDB 数 据 库 


我 们 已 经 融入 了 MongoDB 的 一 些 基本 概念 ， 那 么 如 何 用 Python 操作 MongoDB 呢 ?下面 将 把 Python 了 网络 爬虫 和 
MongoDB 数 据 库 连接 起 来 进行 介绍 。 


我 们 需要 用 pip 安 六 PyMongo 库 ， 连 接 Python 和 MongoDB。 在 命令 行 中 输入 : 


pip install pymongo 


安装 完成 后 ， 可 以 尝试 用 Python 操 作 MongoDB， 监 测 能 人 否 正常 连接 到 数据 库 。 
from pymongo import MongoClient 
client = MongoClient ('localhost',27017) 
Go Cl lent eed Ada EaD 
collection = db.blog 


首先 ， 我 们 需要 连接 MongoDB 的 客户 端 ， 然 后 连接 数据 库 blog_database， 如 果 该 数据 库 不 和 存 在， 就 会 创建 一 个 数据 库 。 
接 下 来 选择 该 数据 的 集合 blog， 该 集合 不 存在 时 也 会 创建 一 个 。 上 述 代码 成 功 运行 则 代表 没有 问题 。 


接 下 来 ,我们 要 将 肛 取 博客 主页 的 所 有 文章 标题 存储 至 MongoDB 数 据 库 ， 代 码 如 下 : 


在 上 面 的 代码 中 ， 首 先 将 肛 虫 获取 的 数据 存 入 post 的 字典 中 ， 然 后 使 用 insert_one 加 入 集合 collection 中 。 进 入 目录 
C:\Program FileS\MongoDBAServemN3.4\bin， 双 击 MongoDB.exe 打 开 ， 输 入 : 


这 样 束 能 够 查询 数据 集合 的 数据 了 ， 如 图 6-29 所 示 。 


è C:\Program Files\MongoDB\Server\3.4\bin\mongo.exe 


> use blog _ database 

switched to db blog_database 
> db 

blog database 

> db. blog.findt>.prettyt> 


"id" : ObjectId¢ o8eS Ge 45898 F chi 728 b6e7b5a"">. 

“url : “http://www. santostang.con-2617/603 7608 -hello—python-", 
"title" : “Hello Pythont", 

"date" : [S0Date¢"261'7—-64-65T15:733:25 6162'"> 


“id” : OhjectId("S8e5He 45898 F c817266e7boh"'>, 

“url = “http i/“www.santostang.com/’28617/803 707 /echarts%eSvadvabyvet b?xaly 
“tach T4%e8vaer hehe weaved boxe Peal boxe Se edvasvesvadteVareSzbcvabveSe 9 hz hexetyvaly 
age 

“title” : “echarts=>= MESES z 同一 负面 多 图 表 "。 

“date" = ISODatec"2817_84- 65715233225 .6392" 


"aid" : OGhjgect dt ose SBe 45098 F ci be bbc", 

“url” = “httpi//“wuw.santostang.com’2617/83 7/07 “echarts*eSvad“abvet“ hyxad 
e?face ?4%e8vaexr hl —“e4y‘hdv hive? 34-7 atvebrabval ves ode oe exeeS eb cr Fb4e548de Fox%eb%964 
Bded:hbxbbxes :hed ed zas A 

"title" : “echarts EPPEN Diy — Fe y BSar rare AT, 


图 6-29 ”查询 数据 


本 节 学 习 了 Python 操作 MongoDB 数 据 库 的 一 些 基本 命令 ， 如 插入 数据 。 如 果 还 想 深 入 学 习 Python 操 作 MongoDB 数 据 
库 ， 可 以 到 PyMongo 的 官方 网 站 学 习 ， 地 址 为 。 


我 们 可 以 在 不 同情 境 下 使 用 不 同 的 数据 仓储 方式 。 如 果 仅 仅 用 来 仓储 测试 用 的 数据 ， 推 荐 使 用 TXT 或 CSV 格 式 ， 因 为 这 两 种 
格式 写 入 和 读 取 都 非常 方便 ， 可 以 很 快速 地 打开 文件 查看 。 


但 是 ， 当 TXT 或 CSV 文 件 过 大 时 ， 使 用 Notepad 记 事 本 打开 txt 文 件 就 要 花费 很 长 时 间 ， 用 Excel 打 开 CSV 文 件 更 是 惨 不 忍 
睹 ， 试 过 的 人 都 知道 。 而 且 要 修改 其 中 的 数据 也 非常 麻烦 。 因 此 ， 当 数据 量 比较 大 、 要 与 别人 交换 或 别人 也 要 访问 时 ， 使 用 数据 
库 是 一 个 明智 的 选择 。 


如 果 存 储 的 数据 不 是 关系 型 数据 格式 ， 推 荐 选择 MongoDB， 甚 至 可 以 直接 存储 肛 取 的 JSON 格 式 数据 而 不 用 进行 解析 。 如 
果 是 关系 型 的 表格 形式 ， 那 么 可 以 使 用 MySQL 存 储 数 据 。 


本 章 的 实践 项 目 是 获取 虎 扑 步行 街 论坛 上 所 有 帖子 的 数据 ， 内 容 包括 帖子 名 称 、 帖 子 链接 、 作 者 、 作 者 链接 、 创 建 时 间 、 回 


复数 、 浏 览 数 、 最 后 回复 用 户 和 最 后 回复 时 间 ， 网 页 地 址 为 https://bbs.hupu.comy/bxj。 


6.5.1 ”网 站 分 析 


使 用 Chrome 打 开 虎 扑 步行 街 的 网 站 页 面 ， 


主题 

Em) (7446) 20172 SSCA , SEH! 考 完 回 步行 街 报道 吧 !( 庆 学 府 踏 成 立 ) 好 [名 23..210] 
ZT eres | 广场 舞 名 人 拒绝 让 步 高 寺 ; SMUT Si, 健康 更 重要 (234) 

REE Mieewit [22 3] 

ZT: OSEBEN ES AW, SSRRISTSASE 123.9 
FRAPS? [%23] 


AFFARS BRE, 


Timeline Profiles Application 


RO 


Elements Corsole 


html 
> #shadow-root (open) 
* <head>..</ head 
¥ <body id-"dummybodyid" 
'--topbarNay star--> 
iv id="hp-topberNav™ >..</ 
<! --topbarNav ent-- 
!--header star--> 
Ly ss="“hp-header np-header-5">..</div 
‘hp-threeNav">..</div 
div class="hp-wrap 
“页面 主体 - 
iv id-"container" class-"r 
iv id="container_padd" 


<!--- 主 体 部 分 start---> 


'---Fflll start--->) 
iv id=“content”>..</ 


然后 使 用 “检查 ”功能 查看 网 页 的 请 求 头 ， 如 图 6-33 所 示 。 


作者 EIS /浏览 
assholeeric 4186 / 3670605 


76/16010 


42 / 4554 


化 凑 德 源 伯 有 又 
2017-06-07 


Styles | Computed Event Listeners 
Filter 
element.style { 


#sidenav_bbs { nupu-vS6. 
padding-bottom: 638px; 


#sicenéev_bbs i 
width: 145px; 
flost: left; 
padcing: 20px B; 


bo dy 了 butto dd, 
| Form, hi, h2, 


iframe, input, Li, ol, p, selec 


textarea, th 
margin: @; 
podderes> 6 


» 


„onmon- ¥1.css:l 
"6, html, 


t, table, td 


<!-- PIEFEND-- > } 
*1-- 只 面 主体 END--> 
‘after diy { 


display: 


user agent styleshect 
block; 
div class-"pop style width :428px; display:none;" id-"rm_div_msg™>..</div 
script type= MEANS avascript“ src= ASEPI NOONA com.cn/pcbbs/is/thread22,is?20179049115 /script 
i jovas ep src=" //goto. hupy.con/?pid=50" }this.src=this.srce"&.rt="tnew Date().getTime();</script = 


EC Dn a dvé@adenav bhs 


| Inherited from div .hn-wrap 
56.css?201782011:9 
Ariel, kelvetica, sans- v 


-hp-wrap J 
font-family: 


图 6-33 ” 虎 扑 步行 街 的 网 站 页 面 


首先 ， 可 以 在 网 页 上 定位 帖子 名 称 、 帖 子 链接 、 作 者 、 作 者 链接 、 创 建 时 间 、 回 复数 、 浏 览 数 、 最 后 回复 用 尸 、 最 后 回复 时 


间 所 在 的 位 置 ， 方 便 之 后 使 用 BeautifulSoup 在 网 页 中 定位 这 些 数据 。 
根据 前 面 介绍 的 方法 ， 以 上 数据 所 在 的 位 置 如 表 6-3 所 示 。 


表 6-3 ”数据 所 在 的 位 置 


| 位 置 
某 帖 子 所 有 数据 
帖子 链接 ‘td',class =p title’ > afhref] 


td'.class =p author > a 


‘td',class =p author’ > al'href'| 
创建 时 间 'td',class =p author > contents|2| 
td',class =p re 
浏览 数 ‘td',class ='p re' 
最 后 回复 用 户 ‘td',class ='p retime' > a 
最 后 回复 时 间 td ,class ='p retime’ > contents[2| 


除 此 之 外 ， 我 们 友 现 虎 扑 步 行 街 的 网 站 内 容 最 多 显示 100 页 ， 如 图 6-34 所 示 。 


图 6-34 最 多 显示 100 页 的 内 容 


另外 ， 当 打开 第 二 页 的 时 候 ， 网 页 URL 地 址 变 成 了 https://bbs.hupu.com/bxj-2。 当 打开 第 三 页 的 时 候 ， 网 页 URL 地 址 变 成 
了 https://bbs.hupu.com/bxj-3。 


这 样 束 很 容易 理解 了 ， 当 翻 页 的 时 候 ， 只 是 将 网 页 URL 地 址 的 最 后 一 个 数据 换 成 了 相应 的 页 数 。 


6.5.3” 目 我 实践 题 


在 本 章 的 实 路 中， 我 们 使 用 MongoDB 和 存储 了 数据 。 有 兴趣 的 读者 可 以 尝试 使 用 MySQL 作 为 数据 库存 储 数 据 ， 并 使 用 
MySQL 中 的 update 进 行 数据 的 更 新 。 


Ble fete RiyiRe 


通过 前 面 6 章 的 学 习 ， 相 信 读 者 已 经 能 够 从 获取 网 员 、 解 析 网 页 、 存 储 数 据 来 实现 一 些 基本 的 乳 虫 了 。 从 本 章 开始 ， 我 们 将 
进入 疏 虫 的 进 阶 部 分 ， 包 括 第 7 章 到 第 12 章 。 进 阶 部 分 的 各 章 并 没有 先后 顺序 ， 对 有 某 一 和 章 感 兴趣 的 读者 可 以 直接 跳 到 这 章 学 习 。 


本 草 将 介绍 如 何 提升 他 虫 的 速度 ， 主 要 有 3 种 方法 : SAR, AHERMAA., HUTS ERASER, fF 
用 这 3 种 方法 爬虫 的 速 大 能 实现 成 倍 的 提升 。 


7.1 并 友和 并 行 ， 同 步 和 异步 


在 介绍 多 线程 息 虫 之 前 ， 首 先 需要 出 悉 并 友和 并 行 、 异 步 和 同步 的 概念。 如 果 阅 读 完 本 节 后 仍 对 并 友和 和 并行、 异步 和 同步 不 
太 理 解 ， 没 有 关系 ， 你 可 以 先 学 习 后 面 的 代码 ， 毕 竟 阅 读本 书 的 目的 是 实践 Python 网 络 有 他 虫 。 


7.1.1 并 友和 并 行 


并 上 友 (concurrency) 和 并 行 (parallelism) 是 两 个 相似 的 概念 。 引 | 用 一 个 比较 容易 理解 的 说 法 ， 并 友 是 指 在 一 个 时 间 段 内 
上 友 生 知 干 事件 的 情况 ， 并 行 是 指 在 同一 时 刻 友 生 知 干事 件 的 情况 。 


这 个 概念 用 单 核 CPU 和 多 核 CPU 比 较 容易 说 明 。 在 使 用 单 核 CPU 时 ， 多 个 工作 任务 是 以 并 发 的 方式 运行 的 ， 因 为 只 有 一 个 
CPU， 所 以 各 个 任务 会 分 别 占用 CPU 的 一 段 时 间 依次 执行 。 如 果 在 目 己 分 得 的 时 间 段 没有 完成 任务 ， 融 会 切换 到 另 一 个 任务 ， 
然后 在 下 一 次 得 到 CPU 使 用 权 的 时 候 再 继续 执行 ， 直 到 完成 。 在 这 种 情况 下 ， 因 为 各 个 任务 的 时 间 段 很 得、 经 弟 切 换 ， 所 以 给 
我 们 的 感 嘻 是 “同时 ”进行 。 在 使 用 多 核 CPU 时 ， 在 各 个 核 的 任务 能 够 同时 运行 ， 这 是 真正 的 同时 运行 ， 也 束 是 并 行 。 


类 似 于 任务 是 吃 完 一 砚 米 饭 和 一 碗 青椒 炒 肉 ，“ 并 友 ” 束 是 一 个 人 吃 ， 这 个 人 史 一 口 菜 然 后 吃 一 口 饭 ， 由 于 切换 速度 比较 
快 ， 让 你 客 得 他 在 “同时 ” 吃 菜 和 饭 ; “并 行 ” 融 是 两 个 人 同时 吧 ， 一 个 人 吧 饭 ， 一 个 人 吧 荣 。 


71.2 同步 和 异步 


同步 和 异步 也 是 两 个 值得 比较 的 概念 。 下 面 在 并 友和 并 行 框架 的 基础 上 理解 同步 和 异步 ， 同 步 束 是 并 友 或 并 行 的 各 个 任务 不 
是 独自 运行 的 ， 任 务 之 间 有 一 定 的 交替 顺序 ， 可 能 在 运行 完 一 个 任务 得 到 结果 后 ， 另 一 个 任务 才 会 开始 运行 。 就 像 接力 赛跑 一 
样 ， 要 拿 到 交接 棒 之 后 下 一 个 选手 才 可 以 开始 跑 。 


异步 则 是 并 上 及 或 并 行 的 各 个 任务 可 以 独立 运行 ， 一 个 任务 的 运行 不 受 另 一 个 任务 影响 ， 任 务 之 间 残 像 比 赛 的 各 个 选手 在 不 同 
的 赛 道 比 赛 一 样 ， 跑 步 的 速度 不 受 其 他 赛 道 选手 的 影响 。 


在 网 络 乳 虫 中 ， 假 设 你 需要 打开 4 个 不 同 的 网 站 ，1O 过 程 茂 相当 于 你 打开 网 站 的 过 程 ，CPU 就 是 你 单 击 的 动作 。 你 单 击 的 动 
作 很 快 ， 但 是 网 站 }J 开 得 很 慢 。 同 步 10 是 指 你 每 单 击 一 个 网 址 ， 要 等 待 该 网 站 彻底 显示 才 可 以 单 击 下 一 个 网 址 ， 也 残 是 我 们 之 
前 学 过 的 息 虫 方式 。 异 步 10 是 指 你 单 击 完 一 个 网 址 ， 不 用 等 对 方 服务 器 返回 结果 ， 立 马 可 以 用 新 打开 的 浏览 器 窗口 打开 另 一 个 
网 址 ， 以 此 类 推 ， 最 后 同时 等 待 4 个 网 站 彻底 打开 。 


很 明显 ， 异 步 的 速度 要 快 得 多 。 


下 面 介绍 的 多 续 程 、 多 进程 、 多 协 程 网 络 爬 虫 在 进行 网 页 1O 的 时 候 都 是 使 用 异步 方式 “同时 ”获取 多 个 网 页 ， 从 而 加 快 网 
页 的 礁 取 速度 。 对 于 这 3 种 并 上 友 、 并 行 网 络 爬 虫 ， 我 们 都 会 计算 时 间 ， 大 家 可 以 通过 时 间 的 对 比 了 解 效率 的 提升 。 我 们 还 可 以 在 
同样 的 网 络 环境 下 完成 这 3 种 方式 的 聆 虫 ， 使 得 这 3 种 方式 的 时 间 对 比 更 为 公平 准确 。 


7.2 ”多 线程 爬虫 


多 线程 胞 虫 是 以 并 友 的 方式 执行 的 。 也 就 是 说 ， 多 个 线程 并 不 能 真正 的 同时 执行 ， 而 是 通过 进程 的 快速 切换 加 快 网 络 肛 虫 速 
度 的 。 


Python 本 身 的 设计 对 多 线程 的 执行 有 所 限制 。 在 Python 设计 之 初 ， 为 了 数据 安全 所 做 的 决定 设置 有 GIL (Global 
Interpreter Lock， 全 局 解释 器 锁 ) 。 在 Python 中 ， 一 个 线程 的 执行 过 程 包括 获取 GIL、 执 行 代码 直到 挂 起 和 释放 GIL。 


例如 ， 某 个 线程 想 要 执行 ， 必 须 先 拿 到 GIL， 我 们 可 以 把 GIL 看 作 “ 通 行 证 ”， 并 且 在 一 个 Python 进程 中 ，GIL 只 有 一 个 。 
拿 不 到 通行 证 的 线程 残 不 允许 进入 CPU 执行 。 


每 次 释放 GIL 锁 ， 线 程 之 间 都 会 进行 锁 竞 争 ， 而 切换 续 程 会 消耗 资源 。 由 于 GIL 锁 的 仓 在 ，Python 里 一 个 进程 永远 只 能 同时 
执行 一 个 线程 ( 拿 到 GIL 的 线程 才能 执行 ) ， 这 束 是 在 多 核 CPU 上 Python 的 多 线程 效率 不 高 的 原因 。 


由 于 GIL 的 存在 ， 多 线程 是 不 是 束 没 用 了 呢 ? 


以 网 络 肛 虫 来 况 ， 网 络 胞 虫 是 10 密 集 型 ， 多 线程 能 够 有 效 地 提升 效率 ， 因 为 单线 程 下 有 1O 操 作 会 进行 0 等待 ， 所 以 会 造成 
不 必要 的 时 间 沪 费 ， 而 开启 多 线程 能 在 线程 等待 时 上 自动 切换 到 线程 B， 可 以 不 瀛 费 CPU 的 资源 ， 从 而 提升 程序 执行 的 效率 。 


Python 的 多 续 程 对 于 IO 密集 型 代码 比较 友好 ， 网 络 爬 虫 能 够 在 获取 网 页 的 过 程 中 使 用 多 线程 ， 从 而 加 快速 度 。 


下 面 将 以 获取 访问 量 最 大 的 1000 个 中 文 网 站 的 速度 为 例 ， 通 过 和 单线 程 的 他 虫 比较 ， 证 实 多 线程 方法 在 网 络 有 他 虫 速 度 上 的 
提升 。 这 1000 个 访问 量 最 大 的 中 文 网 站 是 在 Alexca.cn 上 获取 的 ， 如 果 需 要 这 1000 个 网 站 地 址 的 数据 ， 可 以 去 笔者 的 博客 RE, 
地 址 为 https://github.com/Santostang/PythonScraping/blob/master/jupyter/。 


假设 我 们 已 经 将 1000 个 网 站 的 地 址 下 载 到 本 地 ， 命 名 为 alexa.txt， 并 放 在 Jupyter Notebook 所 在 的 文件 夹 中 。 


7.2.1 ”简单 单线 程 | 中 


首先 ， 以 单线 程 ( 单 进程 ) 的 方式 抓 取 这 1000 个 网 页 ， 代 码 如 下 : 


运行 上 述 代码 ， 得 到 的 结果 是 : 


http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/16542/OEBPS/Text/... 


PITAR: 2030.428 


7.23 ”简单 的 多 线程 公 中 


刚刚 我 们 使 用 threading 完 成 了 多 线程 的 简单 代码 ， 现 在 就 将 Python 多 线程 的 代码 应 用 在 获取 1000 个 网 页 上 ， 并 开启 5 个 线 
程 ， 代 码 如 下 : 


print ("Exiting Main Thread") 
在 上 述 代码 中 ， 我 们 将 1000 个 网 页 分 成 了 5 份 ， 每 一 份 是 200 个 网 页 ， 即 : 


Link fange MEC: 
[ (0,200), (201,400), (401,600), (601,800), (801,1000) | 


然后 利用 一 个 for 循 环 创建 5 个 线程 ， 将 这 些 网 页 分 别 指派 到 5 个 线程 中 运行 ， 即 : 
thread = myThread("Thread-" + str(i), link range list[i-1]) 
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行 完 后 再 执行 主 进 程 ， 这 里 使 用 了 thread.join() 方 法 等 待 各 个 线程 执行 完毕 。 最 后 ， 还 会 记录 下 所 有 线程 执行 完成 的 时 间 end- 
start， 从 而 得 到 多 线程 息 虫 完成 获取 1000 个 网 页 任务 所 需 的 时 间 。 


运行 上 述 代码 ， 得 到 的 结果 为 : 


Starting Thread-1 

Starting Thread-2 

Starting Thread-3 

Starting Thread-4 

Thread-1 200 http://www.baidu.com 
Thread-2 200 http://www.dell.com 
Thread-1 200 http://www.qq.com 
Thread-4 200 http://www.wowenda.com 
Thread-1 200 http://www.naver.com 
Thread-2 200 http://www.dict.cn 
Thread-1 200 http://www.taobao.com 


Thread-3 200 http://www.unrealengine.com 


运行 结束 后 ， 得 到 运行 的 时 间 为 : 428.818 秒 。 


上 述 代码 存在 一 些 可 以 改进 之 处 : 因为 我 们 把 整个 链接 列表 分 成 了 5 等 份 ， 所 以 当 录 个 线程 先 完成 200 条 网 页 的 爬虫 后 会 退 
出 线程 ， 这 样 束 只 剩 下 有 4 个 线程 在 运行 。 相 对 于 5 个 线程 ， 速 度 会 有 所 下 降 ， 到 最 后 剩 下 一 个 线程 在 运行 时 ， 残 会 变 成 单线 


程 。 


7.3 ZHE 


第 7.2 节 介绍 了 多 线程 的 虫 ，Python 的 多 线程 息 虫 只 能 运行 在 单 核 上 ， 各 个 线程 以 并 友 的 方法 异步 运行 。 由 于 GIL (Global 
Interpreter Lock， 全 局 解释 器 锁 ) 的 存在 ， 多 线程 他 虫 并 不 能 充分 地 友 挥 多 核 CPU 的 资源 。 


作为 提升 Python 网 络 息 虫 速度 的 另 一 种 方法 ， 多 进程 拒 虫 则 可 以 利用 CPU 的 多 核 ， 进 程 数 取决 于 计算 机 CPU 的 处 理 器 个 
数 。 由 于 运行 在 不 同 的 核 上 ， 各 个 进程 的 运行 是 并 行 的 。 在 Python 中 ， 如 果 我 们 要 用 多 进程 ， 束 需要 用 到 multiprocessing 这 个 
库 。 

使 用 multiprocess 库 有 两 种 方法 ， 一 种 是 使 用 Process+Queue 的 方法 ， 另 一 种 是 使 用 Pool+Queue 的 方法 。 下 面 会 详细 介 


JJ 
绍 。 


7.3.1 使 用 multiprocessing 的 多 进程 季 虫 


multiprocessing 对 于 习惯 使 用 threading 多 线程 的 用 户 非 常 友好 ， 因 为 它 的 理念 是 像 线程 一 样 管 理 进 程 ， 和 threading 很 
像 ， 而 且 对 于 多 核 CPU 的 利用 率 比 threading 高 得 多 。 


当 进 程 数量 大 于 CPU 的 内 核 数量 时 ， 等 待 运 行 的 进程 会 等 到 其 他 进程 运行 完毕 让 出 内 核 为 止 。 因 此 ， 如 果 CPU 是 单 核 ， 就 
无 法 进行 多 进程 并 行 。 在 使 用 多 进程 怜 虫 乙 前 ， 我 们 需要 先 了 解 计 算 机 CPU 的 核心 数量 。 这 里 用 到 了 multiprocessing: 


运行 上 述 代 码 ， 得 到 的 结果 是 4， 也 就 是 本 机 的 CPU 核心 数 为 4。 在 这 里 使 用 3 个 进程 ， 代 码 如 下 : 


在 上 述 代码 中 ， 使 用 multiprocessing 的 方式 基本 和 thread 库 类 似 。 首 先 ， 使 用 : 


导入 multiprocessing 库 。 值 得 注意 的 是 ， 在 thread 多 线程 中 用 来 控制 队列 的 Queue 库 ，multiprocessing 自 带 了 。 和 
thread 类 似 的 是 ， 在 读 取 链接 列表 后 创建 了 MyProcess 这 个 类 ， 变 量 是 workQueue 队 列 。 该 类 的 其 他 部 分 基本 与 thread 多 线程 


关羽。 


我 们 继续 使 用 循环 来 添加 进程 ， 与 多 线程 不 同 的 是 ， 在 多 进程 中 设置 了 daemon。 


在 多 进程 中 ，daemon 是 什么 呢 ? 在 多 进程 中 ， 每 个 进程 都 可 以 单独 设置 它 的 属性 ， 如 果 将 daemon 设 置 为 True， 当 父 进程 


结束 后 ， 子 进程 融会 目 动 居 终止 。 


7.3.2 ”使 用 Pool+Queue 的 多 进程 和 他 虫 


和 thread 不 同 的 是 ， 除 了 采用 Queue+Process 类 的 方法 实现 多 线程 拒 虫 外 ， 还 可 以 使 用 Poo| 方 法 。 当 被 操作 对 象 数 目 不 大 
了 时， 可 以 直接 利用 multiprocessing 中 的 Process 动 态 成 生 多 个 进程 ， 十 几 个 还 好 ， 但 如 果 是 上 百 个 、 上 干 个 目标 ， 手 动 地 限制 
进程 数量 就 太 过 烦琐 ， 此 时 可 以 使 用 Pool 发 挥 进程 池 的 功效 。 


Pool 可 以 提供 据 定 数量 的 进程 供用 尸 调用 。 当 有 新 的 请 求 提交 人 到 pool 中 时 ， 如 果 池 还 没有 满 ， 丈 会 创建 一 个 新 的 进程 用 来 
执行 该 请 求 ， 但 如 果 池 中 的 进程 数 已 经 达到 规定 的 最 大 值 ， 该 请 求 束 会 继续 等 待 ， 直 到 池 中 有 进程 结束 才能 够 创建 新 的 进程 。 


在 使 用 Pool 之 前 需要 了 解 一 下 阻塞 和 非 阻 塞 的 概念 。 


阻塞 和 非 阻塞 天 注 的 是 程序 在 等 待 调用 结果 (消息 ， 返 回 值 ) 时 的 状态 。 阻 塞 要 等 到 回调 结果 出 来 ， 在 有 结果 之 前 ， 当 前 进 
程 会 被 挂 起 。 非 阻塞 为 添加 进程 后 ， 不 一 定 非 要 等 到 结果 出 来 整 可 以 添加 其 他 进程 运行 。 


自 先 ,我们 可 以 使 用 Pool 的 非 阻塞 方法 和 和 Queue 效 取 网 页 数据 ， 代 码 如 下 : 


from multiprocessing import Pool, Manager 


import time 


如 果 要 将 线程 池 Pool 和 Queue 结 合 ，Queue 的 使 用 方式 就 需要 改变 ， 这 里 用 到 multiprocessing 中 的 Manger， 使 用 
manager=Manager0 和 workQueue=manager.Queue(1000) 来 创建 队列 。 这 个 队列 对 象 可 以 在 父 进程 与 子 进 程 间 通信 


来 创建 线程 池 和 | 线程， 代码 如 下 : 


pool = Pool (processes=3) 
for i in range(4): 


pool.apply async(crawler, args=(workQueue, 1i1)) 


使 用 Pool(processes=3) 创 建 线程 池 的 最 大 值 为 3， 使 用 pool 创 建 子 进 程 的 方法 与 Process 不 同 ， 是 通过 
pool.apply_async(target=funcargs=(args)) 实 现 的 ， 上 述 代码 使 用 pool.apply_async(crawlerargs=(workQueue'D) 创 建 非 阻 
塞 进程 。 

值得 注意 的 是 ， 参 数值 是 crawler 的 冰 数 名 ， 而 并 非 是 crawler()， 因 为 市 有 括号 表示 是 对 函数 的 调用 。 假 如 使 用 


target=crawler(0， 就 代表 调用 crawler( 国 数 ， 将 返回 的 结果 赋予 target， 这 并 非 我 们 想 要 的 。 第 二 个 参数 args 是 使 用 元 组 
(tuple) 类 型 传 入 两 个 参数 。 


运行 上 述 代码 ， 得 到 的 结果 是 : 


Process-1 2 200 http://www.qq.com 
Process-1 0 429 http://www.reddit.com 
Process-0 3 200 http://www.baidu.com 
Process-0 0 200 http://www.taobao.com 
Process-2 | 200 http://www.naver.com 


Process-2 0 200 http://www.sohu.com 


上 述 例子 使 用 了 非 阻塞 方法 ， 也 融 是 这 ， 不 需要 等 到 进程 运行 完 残 可 以 添加 其 他 进程 了 。 如 果 要 使 用 阻塞 方法 也 很 简单 ， 将 
pool.apply async(target=funcargs=(args)) 改 成 pool.apply(target=funcargs=(args)) 即 可 。 


修改 成 阻塞 方法 后 ， 运 行 代码 ， 得 到 的 结果 是 : 
Process-0 999 200 http://www.baidu.com 
Process-0 998 200 http://www.qg.com 
Process-0 997 200 http://www.naver.com 
Process-0 996 200 http://www.taobao.com 


Process-0 995 429 http://www.reddit.com 


Process-0 994 200 http://www.sohu.com 


可 以 友 现 ， 与 非 阻塞 方法 不 同 的 是 ， 阻 塞 方法 一 定 要 等 到 某 个 进程 执行 完 才 会 添加 另 一 个 进程 。 


74 BEER 


除了 多 线程 和 多 进程 外 ，Python 的 网 络 乳 虫 还 可 以 使 用 协 程 (Coroutine) 。 协 程 是 一 种 用 户 态 的 轻 量 级 线程 ， 使 用 协 程 
有 众多 好 处 : 


第 一 个 好 处 是 协 程 像 一 种 在 程序 级 别 模拟 系统 级 别 的 进程 ， 由 于 是 单线 程 ， 并 且 少 了 上 下 文 切换 ， 因 此 相对 来 癌 系 统 消耗 很 
少 ， 而 且 网 上 的 各 种 测试 也 表明 协 程 确实 拥有 惊人 的 速度 。 


第 二 个 好 处 是 协 程 方便 切换 控制 流 ， 这 区 简化 了 编程 模型 。 协 程 能 保留 上 一 次 调用 时 的 状态 (所 有 局 部 状态 的 一 个 特定 组 
合 ) ， 每 次 过 程 重 入 时 ， 融 相当 于 进入 了 上 一 次 调用 的 状态 。 


第 三 个 好 处 是 协 程 的 高 扩展 性 和 高 并 发 性 ， 一 个 CPU 支 持 上 万 协 程 都 不 是 问题 ， 所 以 很 适合 用 于 高 并 友 处 理 。 


协 程 也 有 缺点 。 第 一 ， 协 程 的 本 质 是 一 个 单线 程 ， 不 能 同时 使 用 单个 CPU 的 多 核 ， 需 要 和 进程 配合 才能 运行 在 多 CPU 上 。 
第 二 ， 有 长 时 间 阻 塞 的 10 操 作 时 不 要 用 协 程 ， 因 为 可 能 会 阻塞 整个 程序 。 


在 Python 的 协 程 中 可 以 使 用 gevent 库 。gevent 也 可 以 使 用 pip 安 拓 : 


安装 完 gevent， 就 可 以 使 用 gevent 进 行 他 虫 了 ， 代 码 如 下 : 


在 上 述 代码 中 ， 我 们 首先 使 用 了 : 


这 样 可 以 实现 爬虫 的 并 友 能 力 ， 如 果 没 有 这 两 句 ， 整 个 抓 取 过 程 融会 变 成 依次 抓 取 。gevent 库 中 的 monkey 能 把 可 能 有 1O 
操作 的 单独 做 上 标记 ， 将 IO 变 成 可 以 异步 执行 的 函数 。 


我 们 还 是 用 Queue 创 建 队 列 ， 但 是 在 gevent 中 需要 使 用 : 


将 队列 中 加 入 的 内 容 整合 到 gevent 中 。 接 下 来 使 用 如 下 代码 创建 多 协 程 的 爬虫 程序 : 


jobs = [] 

for i in range(10): 
jobs.append(gevent.spawn(crawler, 1)) 

gevent.joinall (jobs) 


eT OWS, TARAS OME, ME RAREST. IEMs, SUMENC RRR aN ARAIL 
作 。 得 到 的 结果 如 下 : 


Process-0 990 200 http://www.baidu.com 
Process-9 989 200 http://www.jd.com 
Process-1 988 200 http://www.qq.com 
Process-8 987 200 http://www.daum.net 
Process-7 986 200 http://www.sina.com.cn 
Process-5 985 200 http://www.sohu.com 


Process-1 984 200 http://www.aliexpress.com 


7.5 Bes 


AN 一 器 


7.5.1 ”回顾 多 线程 、 多 进程 、 多 协 程 


首先 回顾 一 下 本 节 几 个 重要 概念 。 
并 上 友 (concurrency) 和 并 行 (parallelism) : 并 友 是 指 在 一 个 时 间 段 友 生 土 干 事件 的 情况 。 
并 行 是 指 在 同一 时 刻 发 生 若 干事 件 的 情况 。 


司 步 是 指 并 友 或 并 行 的 各 个 任务 不 是 独自 运行 的 ， 任 务 之 间 有 一 定 的 交替 顺序 ， 可 能 在 执行 完 一 个 任务 并 得 到 结果 后 ， 另 一 


个 任务 才 会 开始 运行 。 
异步 则 是 并 友 或 并 行 的 各 个 任务 可 以 独立 运行 ， 一 个 任务 的 运行 不 受 另 一 个 影响 。 
为 了 更 好 地 理解 多 线程 、 多 进程 和 多 协 程 ， 下 面 给 出 其 区 别 |。 


图 7-1 所 示 为 多 续 程 的 执行 方式 ， 程 序 的 执行 是 在 不 同 绪 程 乙 间 切 损 的 ， 当 一 个 续 程 等 待 网 页 下 载 时 ， 进 程 可 以 切换 到 其 他 
线程 执行 。 


进程 
(CPU 内 核 1) 


图 7-1 多 线程 的 执行 方式 


图 7-2 所 示 为 多 进程 的 执行 方式 ， 程 序 的 执行 是 并 行 、 异 步 的 ， 多 个 线程 可 以 在 同一 时 刻 友 生 若 干事 件 。 这 里 一 个 进程 只 有 
一 个 线程 ， 那 么 可 不 可 以 在 多 进程 中 的 一 个 进程 运行 多 个 线程 呢 ? 管 案 是 肯定 的 。 在 多 进程 中 运行 多 线程 的 方法 可 以 自行 学 习 。 


ERE #1 多 进程 进程 #2 
(CPU 内 核 1) (CPU 内 核 2) 


请 求 网 页 2 
oe RF RAK 


Qh FH py] DL 2 


图 7-2 ”多 进程 的 执行 方式 


图 7-3 所 示 为 多 协 程 的 执行 方式 。 协 程 是 一 种 用 户 态 的 轻 量 级 续 程 ， 在 程序 级 别 来 模拟 系统 级 别 用 的 进程 。 在 一 个 进程 中 ， 
一 个 线程 通过 程序 的 模拟 方法 实现 高 并 友 。 


多 协 程 
(CPU Py F212) 
2X ME 


RE fp Fe 
H2 


时 上 


| 
eta AY 2 


图 7-3 ”多 协 程 的 执行 方式 
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7.5.1 ”回顾 多 线程 、 多 进程 、 多 协 程 


首先 回顾 一 下 本 节 几 个 重要 概念 。 
并 上 (concurrency) 和 并 行 (parallelism) : 并 发 是 措 在 一 个 时 间 段 友 生 肴 干事 件 的 情况 。 
并 行 是 指 在 同一 时 刻 发 生 若 干事 件 的 情况 。 


司 步 是 指 并 上 友 或 并 行 的 各 个 任务 不 是 独 目 运 行 的， 任务 之 间 有 一 定 的 交 蔡 顺序 ， 可 能 在 执行 完 一 个 任务 并 得 到 结果 后 ， 另 一 


个 任务 才 会 开始 运行 。 
异步 则 是 并 发 或 并 行 的 各 个 任务 可 以 独立 运行 ， 一 个 任务 的 运行 不 受 男 一 个 影响 。 
为 了 更 好 地 理解 多 线程 、 多 进程 和 多 协 程 ， 下 面 给 出 其 区 别 。 


图 7-1 所 示 为 多 续 程 的 执行 方式 ， 程 序 的 执行 是 在 不 同 绪 程 乙 间 切 损 的 ， 当 一 个 续 程 等 待 网 页 下 载 时 ， 进 程 可 以 切换 到 其 他 
线程 执行 。 


进程 
(CPU 内 核 1) 


图 7-1 多 线程 的 执行 方式 


图 7-2 所 示 为 多 进程 的 执行 方式 ， 程 序 的 执行 是 并 行 、 异 步 的 ， 多 个 线程 可 以 在 同一 时 刻 友 生 若 干事 件 。 这 里 一 个 进程 只 有 
一 个 线程 ， 那 么 可 不 可 以 在 多 进程 中 的 一 个 进程 运行 多 个 线程 呢 ? 管 案 是 肯定 的 。 在 多 进程 中 运行 多 线程 的 方法 可 以 自行 学 习 。 


ERE #1 多 进程 进程 #2 
(CPU 内 核 1) (CPU 内 核 2) 


请 求 网 页 2 
oe RF RAK 


Qh FH py] DL 2 


图 7-2 ”多 进程 的 执行 方式 


图 7-3 所 示 为 多 协 程 的 执行 方式 。 协 程 是 一 种 用 户 态 的 轻 量 级 续 程 ， 在 程序 级 别 来 模拟 系统 级 别 用 的 进程 。 在 一 个 进程 中 ， 
一 个 线程 通过 程序 的 模拟 方法 实现 高 并 友 。 


多 协 程 
(CPU Py F212) 
2X ME 


RE fp Fe 
H2 
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| 
eta AY 2 


图 7-3 ”多 协 程 的 执行 方式 


7.5.2 性 能 对 比 


为 了 进一步 理解 多 绪 程 、 多 进程 、 多 协 程 对 于 抓 取 时 间 的 影响 ， 我 们 对 于 使 用 不 同方 式 所 人 花费 的 时 间 进 行 了 对 比 ， 如 表 7-1 


表 7-1 多 线程 、 多 进程 、 多 协 程 的 对 比 


ae | 进程 数 EE CLEC REEE tt 

100% 
ee Jan o 
w e e 18% 


31% 
pean se fe 
sm Dr Psa pow 


可 以 看 到 ， 多 线程 、 多 进程 和 多 协 程 所 需要 的 时 间 明 显 少 于 捉 行 。 在 多 线程 和 多 进程 中 ，3 个 线程 或 3 个 进程 所 人 花 的 时 间 基 
本 上 是 串 行 的 1/3。 而 当 线 程 或 进程 数 增多 的 时 候 ， 在 数量 为 10 的 情况 下 ， 多 进程 仅 用 了 8% 的 时 间 ， 多 线程 用 了 18% 的 时 间 。 
新 增 的 线程 能 够 加 快 下 载 速 度 ， 但 是 相对 于 之 前 添加 的 线程 效果 会 越 来 越 不 明显 。 


其 实 ， 前 面 也 有 说 过 Python 在 多 线程 中 的 GlL 锁 机 制 ， 因 为 某 个 进程 需要 在 更 多 线程 之 间 切 换 ， 所 以 就 会 当 费 很 多 时 | 间 。 而 
多 进程 是 调集 CPU 的 多 个 进程 进行 工作 ，10 个 进程 的 性 能 是 捉 行 的 10 多 倍 。 


多 协 程 由 于 是 在 单线 程 上 模拟 的 并 上 友 编 程 ， 因 此 从 串 行 到 3 个 协 程 ， 再 添加 到 10 个 协 程 ， 它 在 性 能 上 并 没有 多 线程 和 多 进程 
那么 好 。 除 此 之 外 ， 由 于 市 冤 的 限制 ， 新 添加 的 线程 并 不 会 市 来 更 快 的 速度 。 


Boe REKHA 


疏 虫 、 反 疏 虫 和 反 反 爬虫 是 网 络 聆 虫 过 程 中 一 直 伴 随 的 问题 。 


现实 世界 的 网 络 乳 虫 程序 并 不 像 之 前 介绍 的 胞 取 博 客 那么 简单 ， 运 行 不 如 意 者 十 有 八 九 。 首 先 需 要 理解 一 下 “ 反 乳 虫 ”这 个 
概念 ， 其 实 就 是 “反对 有 息 虫 ”。 根 据 网 络 上 的 定义 ， 网 络 胞 虫 为 使 用 任何 技术 手段 批量 获取 网 站 信息 的 一 种 方式 。“ 反 乳 虫 ” 惑 


HL 


EEA PB Le RA AESA E. 


本 草 主要 介绍 反 有 息 虫 问题 ， 包 括 网 站 对 有 息 虫 实施 限制 封锁 的 原因 和 拒 虫 程序 如 何 解 决 这 个 问题 。 


8.1 ATA RbTER 


对 于 一 个 经 单 使 用 爬虫 程序 获取 网 页 数据 的 人 来 况 ， 遇 到 网 站 的 “上 反 故 虫 ”已 经 是 司空 见 惯 。 
BA, Wut ATA "RIER" Ye? 


—, WSICRRE Wubi, Baek. MERIT uk RIEAPa ite, MARE Ale te 
地 谍 取 网 站 ， 更 有 甚 者 ， 使 用 分 布 式 的 多 台 机 器 胞 虫 ， 造 成 网 站 浏 史 量 增高 ， 浪 费 网 站 流量 。 


第 二 ， 数 据 是 每 家 公司 非常 宝贵 的 资源 。 在 大 数据 时 代 ， 数 据 的 价值 越 来 越 突 出 ， 很 多 公司 都 把 它 作 为 自己 的 战略 资源 。 由 
于 数据 都 是 公开 在 互联 网 上 的 ， 如 果 竞 争 对 手 能 够 轻易 获取 数据 ， 并 使 用 这 些 数据 玉 取 针对 性 的 策略 ,长此以往 ， 就 会 导致 公司 
竞争 力 的 下 降 。 


因此 ， 有 实力 的 大 公司 便 开 始 利用 技术 进行 反 爬 虫 ， 如 淘宝 、 束 乐 、 携 程 等 。 反 讨 虫 是 指使 用 任何 技术 手段 阻止 别人 批量 获 
取 目 己 网 站 信息 的 一 种 方式 。 


再 次 特地 声明 ， 大 家 在 获取 数据 时 一 定 要 有 节制 、 有 市 操 地 季 虫 。 本 书 中 的 胞 虫 也 仅 用 于 学 习 、 人 研究 用 途 ， 请 不要 用 于 非法 
用 途 。 任 何 由 此 5 引 及 的 法 律 纠纷 请 目 行 负责 。 


8.2 IRDA RE 


在 网 站 “ 反 有 把 虫 ”的 过 程 中 ， 由 于 技术 能 力 的 笑 别 ， 因 此 不 同 网 站 对 于 网 络 乳 虫 的 限制 也 是 不 一 样 的 。 在 实际 的 胞 虫 过 程 中 
会 遇 到 各 种 问题 ， 可 以 大 致 将 其 分 成 以 下 3 类 。 


(1) 不 返回 网 页 ， 如 不 返回 内 容 和 延迟 网 页 返回 时 间 。 
(2) 返回 数据 非 目标 网 页 ， 如 返回 错误 页 、 返 回 空 日 页 和 胞 取 多 页 时 均 返 回 同一 页 。 


(3) 增加 获取 数据 的 难度 ， 如 登录 才 可 查看 和 登录 时 设置 验证 码 。 


8.2.1 不 返回 网 页 


不 返回 网 页 是 比较 传统 的 反 爬 虫 手段 ， 也 残 是 在 爬虫 友 送 请 求 给 相应 网 站 地 址 后 ， 网 站 返回 404 页 面 ， 表 示 服 务 器 无 法 正音 
提供 信息 或 服务 器 无 法 回应 ;， 网 站 也 可 能 长 时 间 不 返回 数据 ， 这 代表 对 有 息 虫 已 经 进行 了 封杀 。 

站 先 ， 网 站 会 通过 IP 访 问 量 反 乳 虫 。 因 为 正常 人 使 用 浏览 器 访问 网 站 的 速度 是 很 慢 的 ， 不 太 可 能 一 分 钟 访问 100 个 网 页 ， 所 
以 通 妾 网 站 会 对 访问 进行 统计 ， 如 果 单 个 IP 的 访问 量 超 过 了 某 个 阅 值 ， 丈 会 进行 封杀 或 要 求 输入 验证 码 。 


其 次 ， 网 站 会 通过 session 访 问 量 反 有 拒 虫 。session 的 意思 “会 话 控 制 ”，session 对 象 存储 特定 用 户 会 话 所 需 的 属性 和 配置 
信息 。 这 样 ， 当 用 户 在 应 用 程序 的 Web 页 之 间 跳 转 时 ， 存 储 在 session 对 象 中 的 变量 将 不 会 丢失 ， 而 是 在 整个 用 户 会 话 中 一 直 存 
在 下 去 。 如 果 一 个 session 的 访问 量 过 大 ， 就 会 进行 封杀 或 要 求 输入 验证 码 。 


此 外 ， 网 站 也 会 通过 User-Agent 反 爬虫 。User-Agent 表 示 浏 览 器 在 上 友 送 请 求 时 ， 附 市 当前 浏览 器 和 当前 系统 环境 的 参数 给 
服务 器 ， 我 们 可 以 在 Chrome 浏 哆 器 的 审查 元 素 中 找到 。 图 8-1 所 示 为 Windows 系 统 使 用 Chrome 访 问 百 度 首 页 的 请 求 头 。 


Request Headers new source 


Accept: text/html, application/xhtml+xml, application/xml1;q=0.9,image/webp, */*;q=0. 

Accept-Encoding: gzip, deflate, sdch, br 

Accept-Language: zh-CN, zh; q=98.8,en;q=@.6,zh-TW;q=0.4 

Cache-Control: max-age=@ 

Connection: keep-alive 

Cookie: BAIDUID=9C64C688CBAFOESACB415CA17E78BSA8:FG=1; BIDUPSID=9C64C688CSAFQESACB415CA17E7SB848; PSTM=1489647335; BD_ 
Host: www. baidu, com 

Upgrade-Insecure-Requests: 1 


User-Agent: M 3 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36 
图 8-1 使 用 Chrome 访 问 百度 首页 的 请 求 关 


当 我 们 使 用 requests 库 进行 爬虫 的 时 候 ， 默 认 的 User-Agent 为 python-redquests/2.8.1 (后 面 的 版 本 号 可 能 不 同 ) 。 当 服务 
器 判断 这 个 不 是 真正 的 浏览 器 时 会 予以 封锁， 或 者 当 单 个 User-Agent 的 访问 超过 阔 值 的 时 候 予 以 封锁 ， 但 是 这 样 会 误伤 正常 用 
尸 ， 可 谓 伤 政 一 干 ， 自 损 八 百 。 


8.2.2 返回 非 目标 网 页 


除了 不 返回 网 页 外 ， 还 有 有 慌 虫 返回 非 目 标 网 页 ， 也 束 是 网 站 会 返回 假 数 据 ， 如 返回 空 日 页 或 季 取 多 页 的 时 候 返 回 同 一 页 。 当 
你 的 爬虫 顺利 地 运行 起 来 ， 你 开 开心 心地 去 做 其 他 事情 了 ， 结 果 半 个 小 时 之 后 友 现 爬 取 的 每 一 页 的 结果 都 是 一 样 的 ， 这 瓯 是 获取 
了 假 的 网 站 。 


8.2.3 ”获取 数据 变 难 


网 站 也 会 通过 增加 获取 数据 的 难度 反 胞 虫 ， 一 般 登 录 才 可 以 查看 数据 ， 而 且 会 设置 验证 码 。 为 了 限制 胞 虫 ， 无 论 你 是 否 是 真 
正 的 用 户 ， 网 站 都 可 能 会 要 求 你 登录 并 输入 验证 码 才能 访问 。 例 如 ，12306 为 了 限制 目 动 抢 票 残 采用 了 严格 的 验证 码 功 能 ， 需 要 
用 户 在 8 张 图 片 中 选择 正确 的 选项 ， 如 图 8-2 所 示 。 


图 8-2 图片 验证 码 


8.3 MMA) “Bebe” 


UAE BME” RES Ge CHES. (Be ESR, Bex" , RRS MBI RENAE 
IAI "RIER" ATS "RRIER" , MERR “BME” BAI, LONE RASA REAP IAT RA. 


对 于 如 何 让 有 拒 虫 顺利 运行 下 去 ， 中 心思 想 是 让 有 拒 虫 程序 看 起 来 更 像 正 弟 用 户 的 浏览 行为 。 正 常用 己 是 使 用 一 台 计 算 机 的 一 个 
浏览 器 浏览 ， 而 且 速 度 比较 慢 ， 不 会 在 短 时 间 浏 览 过 多 的 页 面 。 对 于 一 个 肛 虫 程序 而 言 ， 丈 需要 让 有 息 虫 运行 得 像 正 常用 户 一 样 。 


本 世 介 绍 的 “有 反 反 肛 虫 ” 均 为 党 见 的 “ 反 反 肛 虫 ”方法 ， 对 于 那些 攻击 网 站 服务 器 、 对 网 页 的 浏览 产生 伤害 的 方法 ， 本 书 既 
不 讲述 也 不 推荐 。 读 者 进行 他 虫 行 为 引 友 的 法 律 纠纷 请 目 行 负责 。 


8.3.1 ”修改 请 求 头 


对 于 8.2.1 小 节 中 使 用 User-Agent 反 爬虫 的 方法， 我们 可 以 修改 请 求 头 ， 从 而 实现 顺利 获取 网 页 的 目的 。 


如 果 不 修改 请 求 尖 ，header 就 会 是 python-requests/2.12.4。 


结果 是 : {'User-Agent':'python-requests/2.12.4','Accept-Encoding':'gzip,deflate’,'Accept':'*/*','Connection':'keep- 


alive'}。 


最 简 早 的 万 法 需要 把 请 求 头 改 成 真正 浏览 器 的 格式 ， 例 如 : 


运行 上 述 代码 ， 得 到 的 结果 是 : 


{'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) 
Gecko/20091201 Firefox/3.5.6', 'Accept-Encoding': 'gzip, deflate’, 'Accept': '*/*', 
‘Connection’: 'keep-alive'} 

可 以 看 到 ，header 已 经 变 成 使 用 浏览 器 的 header。 


此 外 ， 我 们 也 可 以 做 一 个 User-Agent 的 池 ， 并 且 随 机 切换 User-Agent。 但 是 在 实际 爬虫 中 ， 针 对 某 个 User-Agent 的 访问 
量 进行 封锁 的 网 站 比较 少 ， 所 以 只 将 User-Agent 设 置 为 正常 的 浏览 器 User-Agent 就 可 以 了 。 


除了 User-Agent， 我 们 还 需要 在 header 中 写 上 Host 和 Referer。 在 第 3 章 3.3.2 小 节 中 已 经 介绍 过 定制 请 求 头 的 方法 ， 此 处 
MAAR, 


8.3.2 (ŽBEREIEARE] 


胞 虫 运 行 得 太 过 频密 ， 一 万 面 对 网 站 的 浏 史 极 不 友好 ， 另 一 万 面 十 分 容易 招致 网 站 的 反 胞 虫 。 因 此 ， 当 你 运行 翁 虫 程序 的 时 
候 ， 两 次 访问 之 间 一 定 要 设置 间隔 时 间 。 


我 们 可 以 使 用 time 库 在 抱 虫 访问 之 间 设置 一 定 的 间隔 时 间 ， 代 码 如 下 : 


运行 代码 ， 得 到 的 结果 是 : 2.0001144409179688。 你 的 结果 可 能 和 这 个 不 一 样 ， 但 是 应 该 约 等 于 2 秒 。 也 丈 是 说 ， 可 以 使 
用 time.sleep(2) 让 程序 休息 2 秒 钟 ， 括 号 中 间 的 数字 代表 秒 数 。 


如 果 使 用 一 个 固定 的 数字 作为 时 间 间 隔 ， 就 可 能 使 他 虫 不 太 像 正常 用 户 的 行为 ， 因 为 真正 用 户 访问 不 太 可 能 出 现 如 此 精准 的 
秒 数 间 隔 。 所 以 还 可 以 用 Python 的 random 库 进行 随机 数 设 置 ， 代 码 如 下 : 


运行 代码 ， 得 到 的 结果 是 : 1.3282118582158329。 你 的 结果 可 能 和 这 个 不 一 样 ， 但 是 应 该 在 0 秒 到 3 秒 之 间 。 这 里 
random.randint(0,2) 的 结果 是 0、1 或 2， 而 random.random( 是 一 个 0~ 1 的 随机 数 。 这 样 获 得 的 时 间 非 常 随 机 ， 更 像 用 户 的 行 
为 。 


如 果 把 有 季 虫 程序 和 时 间 | 间 隅 结合 在 一 起 ， 残 可 以 在 两 次 有 代 虫 中 添加 一 定 的 时 间 间 隔 ， 例 如 : 


在 上 述 代码 中 ，scrap(link) 遂 数 用 来 获取 某 个 网 页 的 代码 ， 首 先 获 取 主 页 所 有 博客 文章 的 链接 ， 然 后 使 用 
random.randint(0,2)+random.random0 和 time.sleep(sleep time) 以 间隔 0 秒 到 3 秒 的 方式 拒 取 这 些 文章 。 


运行 上 述 代码 ， 得 到 的 部 分 结果 是 : 

开始 拒 取 这 篇 博客 :http://www.santostang.com/2017/03/08/hello-python/ 
这 篇 博客 的 标题 为 :Hello Python! 

开始 休息 :0.16292490492777212 秒 


在 实践 过 程 中 ， 如 果 每 次 候 取 都 间隔 0~3 秒 ， 也 不 大 像 真 实 的 访问 。 因 为 我 们 浏览 一 个 网 站 一 定 的 时 间 后 可 能 会 浏览 其 他 网 
站 ， 然 后 过 一 段 时 间 继 续 回来 浏览 。 因 此 ， 可 以 在 胞 取 一 定 页 数 后 休息 更 长 的 时 间 。 例 如 ， 可 以 设置 每 胞 取 5 次 数据 休息 10 秒 。 


8.3.3 ”使 用 代理 


代理 (Proxy) 是 一 种 特殊 的 网 络 服务 ， 允 许 一 个 网 络 终端 (一 般 为 客户 端 ) 通过 这 个 服务 与 另 一 个 网 络 终端 (一般 为 服务 
器 ) 进行 非 直接 的 连接 。 形 象 地 说 ， 代 理 就 是 网 络 信息 的 中 转 站 。 代 理 服务 器 就 像 一 个 大 的 缓冲 ， 这 样 能 够 显著 提高 浏览 速度 和 
效率 ， 


举 一 个 简单 的 例子 ， 如 果 访 问 国外 某 个 网 站 时 速度 很 慢 


束 可 以 用 国内 某 个 代理 服务 器 作为 中 转 ， 你 的 计算 机 再 通过 代理 服 
务 器 请 求 访问 这 个 网 站 。 数 据 先 从 国外 某 网 站 到 国外 的 代理 服务 器 ， 再 到 你 的 计算 机 ， 由 于 这 两 步 数 据 的 传输 较 快 ， 因 此 访问 速 
度 束 变 快 了 ， 如 图 8-3 所 示 。 


访问 很 快 


访问 很 他 


访问 很 快 


ER 
E 


图 8-3 ”使 用 代理 服务 器 


访问 国外 的 资源 
我 们 也 可 以 维护 一 个 代理 IP 池 ， 从 而 让 疏 虫 程序 隐藏 目 己 的 真实 |P。 网 上 有 很 多 免费 的 代理 I|P， 民 秀 不 齐 ， 可 以 通过 饰 选 找 
能 用 的 。 但 是 代理 IP 池 维护 起 来 很 抹 烦 ， 而 且 十 分 不 稳定 。 以 下 是 使 用 代理 IP 获 取 网 页 的 方法 : 


import requests 


link = "http://www.santostang.com/" 
prorites = {Nnt a Ree Rm ARK ee eee x 
response = requests.get(link, proxies=proxies) 


由 于 代理 1P 很 不 稳定 ， 这 里 融 不 放出 代理 IP 的 地 址 了 。 其 实 不 推荐 使 用 代理 IP 方 法 ， 一 方面 ， 虽 然 网 络 上 有 很 多 免费 的 代理 
IP， 但 是 都 很 不 稳定 ， 可 能 一 两 分 钟 就 失效 了 ; 另 一 方面 ， 通 过 代理 IP 的 服务 器 请 求 胞 取 速 度 很 慢 。 


对 于 使 用 代理 IP 感 兴趣 的 读者 ， 可 以 查找 一 些 “Python 扑 虫 代理 池 ” 的 文章 学 习 。 


8.4 AZA 
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还 会 介绍 一 些 其 他 的 方法 ， 包 括 如 何 更 损 IP、 如 何 处 理 登录 表单 和 验证 码 。 


第 9 章 ”解决 中 文 乱码 


如 果 你 经 单 使 用 Python 编程 ， 或 者 在 前 面 的 章节 中 已 经 多 次 使 用 Python 练习 网 络 爬 虫 技术 ， 融 不 可 避免 地 会 遇 到 中 文 乱码 
问题 。 中 文 乱码 问题 经 单 难以 解决 ， 或 者 治标 不 治本 ， 本 章 融 来 解决 这 一 难题 。 


本 章 主要 介绍 什么 是 字符 编码 、Python 的 字符 编码 是 什么 以 及 如 何 解决 Python 中 文 乱码 的 问题 。 


91 什么 是 字符 编码 


如 果 你 已 经 使 用 Python 编程 了 一 段 时 间 ， 就 会 上 友 现 Python 的 字符 编码 真是 一 件 令 人 头痛 的 事情 。 

特别 是 当 程 序 在 运行 的 时 候 ， 突 然 冒 出 一 个 错误 : 

ValueError:Expected a bytes object,not a unicode object 

或 者 在 使 用 print}J 印 结果 的 时 候 ， 突 然 冒 出 一 个 错误 : 

UnicodeDecodeError:'cp950'codec can't decode byte 0x96in position 10:illegal multibyte sequence 


这 时 ， 你 可 


ap 


6 马上 使 用 百度 或 谷歌 搜索 解决 方法 ， 但 是 根据 网 上 的 方法 即便 解决 了 错误 ,但 是 很 可 能 不 知道 为 什么 这 个 万 法 
能 够 解决 这 个 错误 。 这 也 是 笔者 之 前 经 单 遇 到 的 问题 ， 接 下 来 融 为 读者 介绍 这 些 错误 为 什么 友 生 ， 并 提供 解决 方案 ， 让 你 不 再 有 


此 烦恼 。 
首先 ， 从 字符 串 编码 说 起 ， 无 论 是 Python 2 还 是 Python 3， 总 体 上 说 ， 字 符 串 的 编码 都 只 有 两 大 类 : 
(1) 通用 的 Unicode 编 码 。 
(2) 将 Unicode 转 化 成 的 某 种 类 型 的 编码 ， 如 UTF-8、GBK 等 。 
介绍 Unicode 编 码 前 ， 先 来 了 解 计算 机 编程 的 历史 。 


由 于 计算 机 只 能 处 理 数字 ， 因 此 处 理 文本 时 必须 先 转换 为 数字 才 行 。 最 早 的 计算 机 在 设计 时 及 用 8 比特 (bit) 作为 一 个 字 忆 
(byte) ， 而 计算 机 采用 二 进 制 ， 所 以 一 个 字 节 可 以 表示 256 种 不 同 的 状态 ， 每 一 个 状态 对 应 一 个 符号 ， 融 是 256 个 符号 ， 从 
0000000 到 11111111。 


美国 人 上 明了 计算 机 ， 同 时 制定 了 编码 ， 以 对 应 英文 字符 和 二 进 制 数字 之 间 的 天 系 。 这 种 编码 航 称 为 ASCll 码 。ASClI 码 一 
共 规 定 了 128 个 字符 的 编码 ， 比 如 大 写字 母 A 是 65、 二 进 制 为 01000001。 


其 实 ， 这 128 个 字符 表示 英文 绰绰有余 ， 但 是 中 文 有 超过 10 万 个 汉字 ， 一 个 字 节 只 能 表示 256 种 符号 ， 显 然 是 不 够 的 。 所 
以 ， 中 国 使 用 GB2312 作 为 简体 中 文 常见 的 编码 方式 ， 两 个 字 节 表示 一 个 汉字 ， 理 论 上 最 多 可 以 表示 256x256=65536 个 符号 。 
除了 中 国 以 外 ， 其 他 国家 也 纷纷 制定 了 上 自己 的 编码 来 表示 本 国 的 文字 ， 如 日 文 用 的 是 Shift_JI S$。 这样 造成 的 结果 是 ， 同 一 个 字符 
可 能 会 在 不 同 国家 的 编码 体系 中 代表 不 一 样 的 文字 。 例 如 ，130 在 法 语 编 码 中 代表 6， 在 希 伯 来 语 编码 中 却 代表 字母 Gimel (a). 
因此 ， 在 多 语言 的 文本 中 可 能 会 出 现 乱码 。 


为 了 让 各 国 能 够 跨 语 言 、 跨 平台 进行 文本 转换 与 处 理 ，Unicode 被 创造 了 出 来 。 


Unicode 被 称 为 统一 码 、 万 国 码 或 单一 码 。 也 就 是 说 ， 它 为 每 种 语言 中 的 每 个 字符 设 定 了 统一 并 且 唯 一 的 二 进 制 编码 ， 大 概 


包 售 100 多 万 个 符号 。 


是 两 个 字 节 ， 而 ASCl| 是 一 个 字 节 。 例 如 ， 字 母 A 的 AsCll 编 码 为 


Unicode 和 ASCII 的 区 别 是 什么 呢 ? Unicode 编 码 通常 
实 英文 字母 ASCII| 编 码 转 成 Unicode 编 码 就 是 在 前 面 加 0。 


01000001，Unicode 编 码 为 0000000001000001， 其 
既然 Unicode 已 经 包含 所 有 符号 了 ， 为 什么 Unicode 还 会 被 编码 呢 ? 


因为 在 ASCIll 中 ， 瑞 文字 母 只 用 一 个 字 节 表示 就 够 了 ， 但 是 用 Unicode 编 码 写 英 文 时 每 个 符号 用 两 个 字 节 ， 因 此 要 将 其 中 一 
个 字 节 全 部 用 0 表示 。 这 样 存储 是 极 大 的 浪费 ， 比 ASCIl 多 了 一 倍 的 存储 空间 。 


为 了 证 省 空间 ， 开 发 了 一 些 中 间 格 式 的 字符 集 ， 被 称 为 通用 转换 格式 Unicode Transformation Format (UTF) ， 单 见 的 
有 UTF-8 和 UTF-16。 


随 着 互联 网 的 普及 ， 强 烈 要 求 出 现 一 种 统一 的 编码 方式 ，UTF-8 就 是 在 互联 网 上 使 用 最 广 的 一 种 Unicode 的 实现 方式 。 
UTF-8 最 大 的 一 个 特点 是 长 度 可 变 ， 它 可 以 使 用 1~4 个 字 节 表示 一 个 竺 号， 英文 字母 通 音 被 编 为 1 个 字 节 ， 汉 字 通 间 航 编 为 3 个 字 
节 ， 如 表 9-1 所 示 。 


表 9-1 英文 字母 A 和 汉字 中 的 编码 对 照 


© ASCII Unicode | UTF-8 


01000001 00000000 01000001 01000001 


© | OIOOIIIO 00101101 11100100 10111000 10101101 


对 于 UTF-8 编 码 ， 怎 么 知道 什么 时 候 是 1 个 字 节 ， 什 么 时 候 是 3 个 字 节 呢 ? 
其 实 ，UTF-8 的 编码 规则 很 简单 ， 只 有 两 条 : 


(1) 对 于 单字 市 的 符号 ， 字 书 的 第 1 位 设 为 0， 后 面 7 位 为 这 个 符号 的 Unicode 码 。 因 此 对 于 英语 字母 ，UTF-8 编 码 和 ASCII 
码 是 相同 的 。 


(2) 对 于 n 字 市 的 符号 (n>1) ， 第 1 个 字 节 的 前 n 位 都 设 为 1， 第 n+1 位 设 为 0， 后 面 字 节 的 前 两 位 一 律 设 为 10， 剩 下 的 没 
有 提 及 的 二 进 制 位 全 部 为 这 个 符号 的 Unicode 码 。 


例如 ， 上 述 字符 A 为 单字 蔬 符 号 ， 其 UTF-8 编 码 字 节 的 第 1 位 是 0。 而 汉字 “中 ”为 3 个 字 节 符号 ， 第 1 个 字 节 的 前 3 位 都 设 为 
1， 第 1 个 字 市 的 第 4 位 为 0， 后 面 字 忆 的 前 两 位 全 为 10。 


9.2 ”Python 的 字符 编码 

明白 了 Unicode 和 UTF-8 的 区 别 和 关系 后 ， 再 来 看 看 Python 的 编码 方式 。 在 Python 3 中 ， 字 符 串 的 编码 使 用 str 和 bytes 两 
种 类 型 。 

(1) str 字 符 串 : 使 用 Unicode 编 码 。 

(2) bytes 字 符 串 : 使 用 将 Unicode 转 化 成 的 某 种 类 型 的 编码 ， 如 UTF-8、GBK。 


在 Python 3 中 ， 字 符 串 默认 的 编码 为 Unicode， 所 以 基本 上 出 现 的 问题 比较 少 。 而 Python 2 相对 Python 3 来 说 ， 由 于 字符 
串 默 认 使 用 将 Unicode 转 化 成 的 某 种 类 型 的 编码 ， 可 以 采用 的 编码 比较 多 ， 因 此 使 用 过 程 中 经 常 遇 到 编码 问题 ， 为 用 户 融 来 很 多 
烦恼 。 


本 书 使 用 Python 3 作为 编程 语言 ， 为 了 让 大 家 更 容易 理解 ， 后 面 仪 讨论 Python 3 的 中 文 编码 。 


Python 的 默认 编码 如 下 : 


In [1]:str1 = "#4" 
Prine (SECI) 
print (type(str1)) 
我 们 


lt 
可 以 看 出 ，Python 3 的 字符 串 默 认 编码 为 str， 也 就 是 使 用 Unicode 编 码 。 
encode 和 decode 


这 些 默认 的 str 字 符 串 号 么 转化 成 bytes 字 符 串 呢 ? 


这 里 就 要 用 到 encode 和 decode 了 。encode 的 作用 是 将 Unicode 编 码 转换 成 其 他 编码 的 字符 串 ， 而 decode 的 作用 是 将 其 他 
编码 的 字符 串 转换 成 Unicode 编 码 ， 如 图 9-1 所 示 。 


str.encodel( utf-8 ) 


str.decode(‘utf-8') 


str = ‘我们 
UTF-8 编 码 


str = ‘fiT 
zki Unicodese tS 


图 9-1 encode 与 decode 编 码 的 转换 


图 9-1 所 示 为 Unicode 和 UTF-8 之 间 编 码 转换 的 例子 ， 代 码 实现 如 下 : 


这 里 的 str_utf8 已 经 为 UTF-8 编 码 了 ， 中 文字 符 转 换 后 ，1 个 Unicode 字 符 将 变 为 3 个 UTF-8 字 符 ，\xe6 束 是 其 中 一 个 字 节 ， 
因为 它 的 值 是 230， 疫 有 对 应 的 字母 可 以 显示 ， 所 以 以 十 六 进 制 显 示 字 节 的 数值 。\xe6\x88\x91 三 个 字 忆 代 
表 “ 我 ” 字 ，\Xxe4\xbb\xac 三 个 字 节 代表 “ 们 ” 字 ， 代 码 实现 如 下 : 


再 用 decode 可 以 把 用 UTF-8 编 码 的 字符 串 解 码 为 Unicode 编 码 。 要 编码 成 其 他 类 型 的 编码 时 ， 也 可 以 用 encode， 如 GBK。 
如 果 想 要 查看 具体 的 编码 类 型 ， 那 么 可 以 用 到 chardet， 代 码 实现 如 下 : 


如 果 你 脑 洞 大 开 ， 或 许 会 问 这 样 一 个 问题 : unicode 还 可 以 decode 吗 ? 显示 结果 如 下 : 


已 经 被 编码 的 UTF-8 还 可 以 再 encode 吗 ? 显示 结果 如 下 : 


答案 都 是 否定 的 。 因 为 在 Python 3 中 ，unicode 不 可 以 再 被 解码 。 如 果 想 把 UTF-8 转 成 其 他 非 unicode 编 码 ， 那 么 必须 先 
decode 成 unicode， 再 encode 为 其 他 非 unicode 编 码 ， 如 GBK。 


encode 转 换 为 其 他 非 unicode 编 码 的 代码 如 下 : 


9.3 ”解决 中 文 编码 问题 


理解 了 Python 的 编码 后 ， 出 现 的 问题 融 很 容易 解决 了 。 在 使 用 Python 进行 网 络 怜 虫 的 时 候 ， 对 于 中 文 出 现 的 乱码 会 出 现 以 


BLAH? 


问题 1: 使 用 Requests 获 得 网 站 内 容 后 ， 发 现 中 文 显示 乱码 。 


Ei 


N 


: 将 录 个 字符 串 decode 的 时 候 ， 字 符 串 中 有 非法 字符 ， 程 序 抛 出 异 冲 。 


DÍ 


Éi 


DÍ 
UJ 


Ei 


网 页 使 用 gzip 压 缩 ， 解 析 网 页 数据 的 时 候 中 文 不 不 乱码 显示 。 


: 写 入 和 读 取 文 件 的 时 候 ， 文 件 显 示 的 字符 串 不 是 正确 的 中 文 。 


DÍ 


E 
小 


9.3.1 问题 1: 获取 网 站 的 中 文 显示 乱码 


n" 


获取 w3school 网 站 的 内 容 ， 图 9-2 所 示 为 “领先 的 Web 技 术 教程 -全 部 免费 


HTML / CSS Javascript Server Side ASP.NET XML Web Services Web Building 
hikari 7 " SEARCH: 
领先 的 Web 技术 教程 - 全 部 免费 
HTMLS 
Sei 在 w3school , 你 可 以 找到 你 所 亏 要 的 所 有 的 网 站 建设 教 得， 本 
Css3 = mir tthe. uO; E HTML/HTMLS H 
HRI HTML 到 C55 . DEHRA SOL. JS. PHP 和 ASFNET. 
TCP/IP 战 基础 的 HTML EIT EHNM SQL. JS 和 N HTML HE 
Mes? seen ! : 
= i 
Javascnpt HTML DOM 
HTRML DOM ; 
jQuery f. sands 一 也 王 
〖 \ 宛 束 的 网 站 技术 参考 于 肌 
Anne 过。 RS SHE T RSA. 
nis =>» ” BOSE wcaqyeeet : HTML, CSS, XML, 局 区 县 他 有 的 技术 @ulavatcript. PHP, SOLS, 
WMUScript P = _ XML DOM 
i= al Elements Console ‘Sources Network Timeline Profiles Application Secunty Audits Adblock Plus 
|| Styles Computed Event Listeners > 
html wmlns="hitps: /we w3 org! 1909/ xhtml" | 
¥ tc hadow-root tner) | Filter how cle 
F fshadow?..</shadow> | i 
Style>4 /style> SAEMETE SEERNE 
F chad 2.8 (head: |+ 
F <body id="homefirst' |body#homefirst divémaincentent cS.cs5 1285 
¥ idiv id- wrapper” Giviws h2 { 
+div id="header_ hader div nargin-top: 28po: 
*dir id="navfiret” .Adiy + 
5 i : id="navsecond ja bs body#homefirst divémaincontent c5 css: 
Tdiv id="naincontent™> divews ha i 
Fediv 1g=7wW3" font-size: 28px} 
hopia Web 技术 教程 apan == 50 
py 在 waschecl, TERSIRAT ENF APRESS - foe ean ere NE TS 
p EES | HTML 到 CSS. TAEL SOL J5, PHP fas ASP NET iF | 
Peps. E )cdivitad h2, body#homefirst divřnaincontent h3 
‘diw |t 
F ¿div class=" idea" žuti div | 
Fediv class="Idea">.</dive 4 
Fediv class="idea">..</du body #homeFir st <style> tyl 
La idis divimaincontent, diviimaincontent hi, 
badly {daw ~ | Givémaincontent h2, divésidehar divžad n2 d 
| himl body#homefirst diw#wrapper divémaincontent div#w3 hz | a font-family: RELIES: 


如 果 我 们 使 用 前 几 章 介 


图 9-2 ”显示 网 页 内 容 


绍 的 万 法 ， 其 代码 为 : 


import requests 
from bs4 import BeautifulSoup 


url = "hips Ino School: com.cn; * 

r = requests.get (url) 

soup = BeautifulSoup(r.text, "lxml") 
xx = soup.find('div',id='w3') .h2.text 


DEINE (xc) 


运行 上 述 代 码 ， 得 到 的 结果 是 : AiiEuA Web “boii -Eee7AaN。 


这 一 行 配 码 不 是 我 们 所 期 望 的 结果 ， 问 题 出 在 哪儿 呢 ? 这 是 因为 代码 中 获得 的 网 页 的 响应 体 r 和 和 网 站 的 编码 方式 不 同 。 键 入 
rencoding， 得 到 的 结果 是 ISO-8859-1。 意 思 是 Requests 基 于 HTTP 头 部 推测 的 文本 编码 是 ISO-8859-1。 从 网 站 代码 中 可 以 看 
到 ， 真 正 使 用 的 编码 是 gb2312， 如 图 9-3 所 示 。 


<tit1e>w3school EAE </t it le> 

<meta name=" description” content=" £ Et 
¿link rel="stylesheet” type="text/css hh 
<meta http-equiv= "Content-Type" f con 3 
<meta http-equiv="Content—Language 


<meta name= robots content= all” /> 

<meta name=" author’ contert="w3school.com.cn’ /> 

<meta name= "Copyright" cortent="“Copyright W3school. com cn All Rights Reserved.” , 
<meta name="MSSmart TagsPreventParsing” cortent="true" /> 

<meta httprequiv="imagetoolbar’ content=" false" /> 

<link rel="shorteut icon” href="/favicon ico” type="image/x-icon’ /> 


图 9-3 ”使 用 的 编码 是 gb2312 
因此 ， 我 们 需要 声明 r 的 正确 编码 为 gb2312。 
在 r=requests.get(ur) 后 加 上 r.encoding='gb2312'， 再 运行 一 次 代码 ， 应 该 就 可 以 得 到 正确 结果 了 ，。 


为 什么 之 前 肛 取 网 页 时 不 用 声明 编码 方式 呢 ? 这 是 因为 大 多 数 网 页 的 编码 方式 都 是 UTF-8，Requests 会 目 动 解码 来 自 于 服 
务 器 的 内 容 。 大 多 数 unicode 字 符 集 都 能 被 无 颖 地 解码 ， 这 其 中 残 包 括 UTF-8。 人 例如， 得 看 京 乐 电 商 的 源 代 码 ， 可 以 看 到 它 的 编 
码 方式 是 UTF-8， 如 图 9-4 所 示 。 


<meta charset="UIF-8 > _ | | | | 
title? RAR OD. 的 及 -正品 估价 、 品 质保 障 、 配 计 及 时 、 轻 格 购物 ! </title> 
meta name=" description” content=" F RJD. com Stas Shed EF Mey py psa, + 


s AMAR TEE ta te Babes Fe pe as > | 
¿meta name="Kenwrds” content=" pd LTI, pE Ai, FA, 笔记本, BAG, MP: 


图 9-4 网 页 的 编码 方式 是 UTF-8 


9.3.2 ”问题 2: 非法 字符 抛 出 异常 


当 我 们 将 某 个 字符 串 从 GBK 解 码 为 unicode 的 时 候 ， 可 以 采用 : 
strl.decode ('GBK') 


但 是 在 实际 进行 网 络 息 虫 的 时 候 ， 可 能 会 遇 到 如 下 异常 : 
UnicodeDecodeError:'GBK'codec can't decode byte in position 20146-20147:illegal multibyte sequence 
HERRA EAERI, EARR SSeS, Fem AAS. 


例如 ， 全 角 的 空格 往往 有 多 种 不 同 的 实现 方式 ， 如 \xa3\xa0、\xa4\x57， 这 些 字 符 看 起 来 像 是 全 角 空 格 ， 但 是 它们 并 不 是 
真正 的 全 角 空 格 ， 真 正 的 全 角 空 格 为 \Xa1\xa1， 所 以 在 解码 的 过 程 中 就 会 出 现 异 常 。 但 是 这 样 的 问题 很 让 人 头疼 ， 因 为 只 要 字 
符 串 中 出 现 了 一 个 非法 字符 ， 整 个 吟 虫 程序 都 有 可 能 因此 报错 ， 进 而 停止 运行 。 


解决 方法 很 简单 ， 可 以 采用 ignore 忽 略 这 些 非 法 字符 : 
str1l.decode('GBK', 'ignore') 
在 decode 方 法 中 ，decode 的 函数 原型 为 decode([encodingjl,[errors='strict])， 第 二 个 变量 为 控制 错误 处 理 的 方式 ， 默 认 
为 strict， 遇 到 非法 字符 时 会 抛 出 异 单 。 
我 们 可 以 把 第 二 个 参数 设置 为 其 他 变量 ， 有 以 下 3 种 方法 : 
(1) ignore， 忽 略 其 中 的 非法 字符 ， 仪 显示 有 效 字符 。 
(2) replace， 使 用 符号 代 蔡 非法 字符 ， 如 '? 或 \ufffd 。 


(3) xmlcharrefreplace， 使 用 XML 字符 引用 代 蔡 非法 字符 。 


9.3.3 ”问题 3: 网 页 使 用 gzip 压 缩 


当 使 用 Requests 获 取 新 瀛 网 首页 的 时 候 ， 要 去 网 页 源 代码 处 先 了 解 编 码 ， 可 以 友 现 使 用 的 是 UTF-8 编 码 。 我 们 直接 使 用 前 
几 章 介绍 的 方法 获取 内 容 ， 代 码 如 下 : 


import requests 

url = 'http://www.sina.com.cn/' 
r = requests.get (url) 

Brine Ay seek.) 


运行 上 述 代 码 ， 部 分 结果 截图 如 图 9-5 所 示 。 


<!DOCTYPE html? 

<!-— | published at 2017-05-14 18:21:12 |] 一 -> 

<html> 

<head> 
<meta http-equiv= Content-type content=" text/html; charset=utf-8 /> 
<meta http-equiv= X-Uå-Compatible” content=" IE=edge" /> 


<title>- ° ap? ê! - êj u</title> 
<meta name= keywords” content="# ° #y*,# BH ok’, SINA, sina, sina. com. cn, &- ° BH é! -éj p, é&— E - , êp 6 四 
we I 
<meta nane= "description content=" ° ev pwa nA. pfp UE » 244° 2—Yeawea,."" bgaa tpr. 4,2 teu By 1 
MCE at, , AB! | te- Akat., axi- ç'e? écn. potaa dea’. ,EH AW BB" Bi phit inier 
e-° G—nXge'e TAA" £4! BB dom dc & A Lar S aet Mek emaoAira, * at. AD od OT MA e—Jahewngcaoeae & tér Gem” bp 
Tet entar Agn a Geno é—' 4” > 


图 9-5 ”中文 显示 为 乱码 


中 文部 分 全 为 乱码 ， 经 使 用 了 默认 的 Charset 编 码 方式 ， 为 什么 还 会 出 现 乱码 呢 ? 这 是 因为 新 滔 网 使 用 gzip 将 网 页 压 
缩 了 ， 必 须 先 将 其 解码 才 行 。 季 运 的 是 ， 使 用 rcontent 会 自动 解码 gzip 和 deflate 传 输 编 码 的 响应 数据 。 


import chardet 

arter gzip = ie eOntent 

print (' 解 压 后 字符 串 的 编码 为 ', chardet.detect (after gzip) ) 
See 人 


运行 上 述 代码 ， 得 到 的 结果 如 图 9-6 所 示 。 


解压 后 Seen eo {encoding : “utf-8°, * confidence’: 0.99} 
<!DOCTYPE html> 
“1-- [ published at 2017-05-14 18:21:12 | --> 
shtml? 
<head> 
<meta http-equiv= Content-type content=” text/html: charset=utf-8" /> 


<meta http-equiv= X-UA-Compatible” content=" IE=edge" > 
<title-siR Beoi</title> 
<meta name= keywords” content="#k, #7, SINA sina, sina. com. cn, #PR BO, | AP, ai” 2 
<meta name= description” content= FMR AERA 2A rRe AR pay AR, ABE 
TSH, RB. RENH, PIAR, SAREE, WANE IRR, HA, ABR, AE AFS 
道 ， ENARA, WU wF Spa RTE]. 


图 9-6 ”显示 正确 的 结果 


在 上 述 代码 中 ， 首 先 使 用 rcontent 解 压 gzip， 然 后 使 用 Charset 找 到 该 字符 串 的 编码 为 UTF-8， 最 后 把 字符 串 解码 为 
unicode， 束 可 以 打印 出 来 了 。 


9.3.4 ”问题 4: 读 与 文件 的 中 文 乱 码 


在 使 用 Python 3 读 取 和 保存 文件 的 时 候 ， 一 定 要 注 明 编 码 方 式 。 


例如 ， 创 建 一 个 TXT 文 件 ， 命 名 为 test_ANSI.txt， 里 面 保存 有 文本 内 容 “abc 中 文 ”。 首 先 使 用 记事 本 默认 的 ANSI 编 码 保存 
文件 ， 如 图 9-7 所 示 。 


图 9-7 创建 test_ANSI.txt 


然后 创建 另 一 个 TXT 文 件 ， 命 名 为 test_utf8.txt， 里 面 保 仓 有 文本 内 容 abc 中文 ”， 转 为 用 UTF-8 编 码 的 格式 保存 ， 如 图 9- 
BATA. 


图 9-8 ”创建 UTF-8 格 式 的 文本 文件 


下 面 尝试 用 Python 来 读 取 这 两 个 文件 ， 先 不 注 明 编码 方式 ， 代 码 如 下 : 


结果 ，test_ ANSI.txt 能 够 正确 读 取 ， 而 test_utf8.txt 出 现 了 异 剃 。 这 是 因为 计算 机 的 Windows 系 统 安 妆 的 是 简体 中 文 版 ， 
默认 的 编码 方式 为 GBK (也 就 是 这 里 的 ANSI) 所 以 test_ANSI.txt 能 正确 读 取 ， 而 test-utf8.txt 不 能 。 


因此 ， 我 们 必须 在 读 取 文件 的 时 候 声 明 编码 方式 : 


result A OPAN EERE AN Oren a 6s encoding — Ane te reat) 
bein. Cresul ANGT) 
站 
PLINE MTE SULE ULES) 


同 理 ， 当 我 们 保存 文件 的 时 候 ， 也 一 定 要 注 明 文件 的 编码 : 


title = ' 我 们 ' 

WICH Openi tart Le, tt ab ened lh Sa T 
f.write (title) 
f,close'() 


以 上 是 对 于 TXT 文件 和 CSV 文 件 的 处 理 方法 。 对 于 JSON 文 件 而 言 ， 当 我 们 把 市 有 中 文 的 数据 保 仓 至 json 文 件 时 ， 黔 认 会 以 
unicode 编 码 处 理 ， 例 如 : 


import json 

title = ' 我 们 love 你 们 ， 

with open('title.json','w',encoding = 'UTF-8') as f: 
Teo [tate], T) 


打开 titlejson， 数 据 如 图 9-9 所 示 。 


_ | title json - 记事 本 
文件 (F) SAE EEO BBW) BH) 


I \u6211\udeec love Yudfbovudeec”] 


图 9-9  title.json R44 


如 果 我 们 希望 能 够 显示 出 中 文 ， 可 以 把 代码 改 为 : 


打开 新 的 titlejson， 数 据 如 图 9-10 所 示 。 


\ ”我 们 Love 本 7 ig 


图 9-10 ”显示 正确 的 结果 


94 Ba 


在 各 个 Python 讨 论 区 经 常 可 以 看 到 大 家 讨论 中 文 编码 问题 。 希 望 通过 这 一 草 的 学 习 ， 读 者 不 像 以 前 一 样 即使 解决 了 中 文 编 
码 问题 却 不 知 其 所 以 然 ， 而 是 可 以 通过 理解 为 什么 、 怎 么 回 事 ， 误 会 贯通 地 理解 编码 问题 ， 掌 握 “ 点 石 成 金 ”之 术 。 


第 10 章 ”登录 与 验证 码 处 理 


在 第 8 章 谈 到 了 上 反 爬 虫 会 增加 获取 数据 的 难度 ， 如 登录 后 才 可 以 查看 、 登 录 时 设置 验证 码 等 。 其 实 这 些 问题 是 可 以 解决 的 ， 
我 们 可 以 利用 Python 登录 网 页 上 的 表单 ， 还 可 以 通过 程序 识别 图 片 中 的 文字 ， 以 实现 验证 码 的 处 理 。 


本 章 将 针对 第 8 草 提出 的 要 点 进行 介绍 ， 主 要 包括 如 何 处 理 登 录 表 单 、 如 何 保存 cookies、 如 何 使 用 人 工 方 法 处 理 验证 码 以 
及 使 用 OCR 识 别 万 法 处 理 验 证 码 。 


10.1 ”处理 登录 表 早 


随 着 Web 2.0 的 友 展 ， 大 量 数据 都 由 用 户 产 生 ， 这 里 残 需要 用 到 页 面 区 互 ， 如 在 论 坛 提交 一 个 帖子 或 友 送 一 条 微 博 。 因 此 ， 
处 理 表单 和 登录 成 为 进行 网 络 爬 虫 不 可 或 缺 的 一 部 分 。 获 取 网 页 和 提交 表单 相 比 ， 获 取 网 页 是 从 网 页 抓 取 数 据 ， 而 提交 表单 是 同 
网 页 上 传 数 据 。 


t&ri (浏览 器 ) 向 服务 器 提交 HTTP 请 求 的 时 候 ， 两 种 最 单 用 到 的 方法 是 GET 和 POST。 使 用 GET 方 法 的 时 候 ， 查 询 字 符 
(SE Et) 是 在 GET 请 求 的 URL 中 发 送 的 : 


http://httpbin.org/get?key1 =value1 &key2=value2 


因为 浏览 器 对 URL 有 长 度 限制 ， 所 以 GET 请 求 提交 的 数据 会 有 限制 。 这 里 数据 都 清 清 楚楚 地 出 现在 URL 中 ， 所 以 GET 请 求 不 
应 在 处 理 敏感 数据 时 使 用 ， 如 密码 。 


按照 规定 ，GET 请 求 只 应 用 于 获取 数据 ， 因 此 前 面 介绍 的 都 是 使 用 requests 库 的 get 方 法 爬 取 数据 。 


相对 于 GET 请 求 ，POST 请 求 则 用 于 提交 数据 。 因 为 查询 字符 串 (名 称 / 值 对 ) 在 POST 请 求 的 HTTP 消 息 主体 中 ， 所 以 敏感 数 
据 不 会 出 现在 URL 中 ， 参 数 也 不 会 被 保存 在 浏览 器 历史 或 Web 服 务 器 日 志 中 ， 例 如 : 


POST/test/demo_ form.asp HTTP/1.1 
Host:w3schools.com 
name =value1&name2=value2 


因此 ， 表 单数 据 的 提交 基本 上 要 用 到 POST 请 求 。 


10.1.1 ”处理 登录 表 蛙 


大 多 数 网 站 都 会 在 网 站 上 注 明 禁止 拒 虫 登录 表单 ， 为 了 在 法 律 和 道德 上 的 双 保 险 ， 笔 者 在 个 人 博客 上 开 了 一 个 测试 账号 ,， 方 
便 大 家 学 习 这 一 部 分 的 内 容 。 账 号 名 为 test， 密 码 为 a12345。 读 者 可 以 使 用 笔者 的 网 站 学 习 如 何 处 理 登 录 表 单 ， 网 站 地 址 
为 http://www.santostang.com/wp-login.php。 


处 理 登 录 表 单 可 以 分 为 两 步 : 
(1) 研究 网 站 登录 表单 ， 构 建 POST 请 求 的 参数 字典 。 
(2) 提交 POST 请 求 。 以 下 是 构建 POST 请 求 的 参数 字典 的 几 个 步 又。 


步骤 01 打开 网 页 并 使 用 “检查 ”功能 。 使 用 Chrome 打 开 博 客 主页 http://www.santostang.com/wp-login.php， 碳 击 
页 面 任意 位 置 ， 在 弹出 的 快捷 荣 单 中 单 击 “ 检 查 ” 命 令 。 在 弹出 的 页 面 左上 角 单 击 “ 鼠 标 ” 按 钮 ， 再 企 网 页 单 击 登录 框 这 一 区 
域 ， 可 以 看 到 代码 中 定位 到 了 登录 框 的 位 置 ， 如 图 10-1 所 示 。 


Ey [> ARGSORARSantos<« = x Yi view-sourcemww.san 


<€ CQ O 不 安全 | wwsantostang.com/wp-login.php 


wew.ws,org/1999/xhtmlL" Yone="zh-CN’ 
less=-"Login login-action-login wp-core-ui locale 


name-“Loginform” idc="loginform” action="http://wwu.santostang.com/wp-login.php™” method="po login form .input :| 
border-style:> none!inportant; 

label for-"user_login border-wicth: Spx !inportant; 
” kL oy if. 4 ” 

AS Fetal } 

~ : e .login form .input { 
input type="text" neme="loe” id-"user_login" t MA : 
‘Lebel — 


input, «login form input[type=-checkbox], 
login input[type=text] { 
X background: > |_ #fbfbfb; 


‘script 
ass="forgetmenct 


rememhern= 


html body SC on-login.wp-core-ui.locale-zh-cn div@login 和 nmzloqnfiorm p label E mea geet } 
图 10-1 定位 到 登录 框 的 位 置 


步骤 02 ”查看 各 个 输入 框 的 代码 。 在 用 户 名 输入 框 中 ，name 属 性 的 值 为 log， 这 里 的 log 将 会 是 表单 的 key 值 ， 它 的 value 则 
是 我 们 要 输入 的 用 户 名 ， 如 图 10-2 所 示 。 


¥<label for="user_login 
“用户 名 或 电子 邮件 地 址 ” 
input type="text" name="log" id="“user_login” class="“input” value 


(/label 


图 10-2 ”查看 用 户 名 输入 框 的 代码 


同 理 ， 在 审查 元 素 中 单 击 密码 框 ， 可 以 找到 密码 的 key 值 ， 即 name 属 性 的 值 pwd， 如 图 10-3 所 示 。 因 此 ，pwd 将 是 之 后 登 
录 表 单 的 key 值 ， 它 的 value 则 是 我 们 输入 的 密码 。 


type="password” name="pwd" 1 


图 10-3 AA BA ATE Ay 


在 页 面 中 单 击 “ 记 住 我 的 登录 信息 ”， 可 以 找到 对 应 的 key 值 。 如 图 10-4 所 示 ，Kkey 值 是 name 属 性 的 值 


rememberme, ，value 则 是 里 面 的 forever。 


“ eR 


rememberme 


ememberme 
iai 


E mi æ= ' an fi =F le Fa [ 
— F ‘m Som | Mm Som 5 -= ln 


rememberme 


文 个 POST 请 求 是 不 是 像 我 们 正常 登录 一 样 ， 提 交 


图 10-4 显示“ 记 住 我 的 登录 信息 ” 
= 
Ys 
审查 元 素 中 找 出 来 ， 如 图 10-5 所 示 。 


对 应 的 key 值 
密码 ”和 


submit 


记 住 我 的 登录 信息 
submi 


APS" 3 Sa ABR 
le? 答案 并 没有 想象 中 那么 简单 。 在 登录 表单 中 ， 有 些 key 值 在 浏览 器 中 设置 了 hidden 值 ， 是 不 会 显示 出 来 的 
ini it” id 
hidden direct to 
hidden 


里 我 们 可 以 在 
button BELO ory but 
tt santostang.com/wp-admin 
testcookie 
图 10-5 ”查找 隐藏 值 
可 以 发 现 ， 有 两 个 参数 在 隐藏 标签 (type="hidden") 中 。 第 一 个 是 redirect to， 它 的 value 
是 http://www.santostang.com/wp-admin/; 另 一 个 是 testcookie， 它 的 value 是 1 
因此 ， 这 里 可 以 构建 POST 请 求 的 参数 字典 dict， 代 码 如 下 
postdata = { 
'pwd' al2345' 
oo "test' 
rememberme "forever 
'redirect to "http://www. santostang.com/wp-admin/' 
"testcookie 1 ， 
} 
接 下 来 束 可 以 提交 POST 请 求 来 登录 网 站 了 。 首 先 需 要 导入 requests 库 ， 创 建 一 个 session 对 象 
二 SEE 
session = requests.session () 
Session 是 网 站 开 上 友 中 一 个 非 单 重要 的 概念 。 通 俗 来 记 ， 融 是 用 户 在 浏览 某 个 网 站 时 ， 从 进入 网 站 到 天 闭 浏览 器 所 经 过 的 这 
段 过 程 。session 对 象 会 存储 特定 用 户 会 话 所 需 的 属性 和 配置 信息 ， 这 对 我 们 后 面 在 其 中 保存 和 操作 cookies 非 常 有 意义 
下 面 提交 post 请 求 ， 代 码 如 下 : 


在 上 述 代码 中 ， 先 建立 了 各 个 参数 ， 包 括 post、postdata 和 headers。 然 后 使 用 
login page=session.post(post url,data=postdata,headers=headers) 的 session.post 方 法 ， 参 数 的 url 是 post url, dataFAAay 
是 postdata 字 上 典 ， 友 送 POST 请 求 。 


运行 上 述 代码 ， 如 果 最 后 输出 的 结果 为 200， 融 代表 响应 的 状态 为 请 求 成 功 ， 可 以 成 功 登 录 表 单 。 各 为 其 他 代码 ， 则 表示 其 
他 信息 ， 例 如 : 


303 一 一 重 定向 
400 一 一 请 求 错误 
401 一 一 未 授权 


403 一 一 禁止 访问 


404 一 一 文件 未 找到 


500 一 一 服务 器 错误 


10.1.2 ”处 理 cookies， 让 网 页 记 住 你 的 登录 

人 在 上 述 登 录 表 单 中 ， 我 们 非常 容易 地 登录 成 功 了 。 意味 着 每 次 重新 运行 代码 都 要 登录 一 次 ， 之 后 才能 在 session 中 有 把 取 
数据 。 

有 没有 一 种 方法 能 够 把 登录 状态 记录 下 来 ， 再 次 运行 代码 的 时 候 可 以 直接 获取 之 前 的 登录 状态 ， 从 而 不 用 重新 登录 呢 ? 


这 样 的 方法 确实 有 ， 使 用 cookie 即 可 。 当 用 户 浏览 以 前 访问 过 的 网 站 时 ， 即 使 没有 登录 过 该 网 站 ， 网 页 中 也 可 能 
现 : “你 好 ，XXX， 欢 迎 再 次 访问 网 站 ”。 这 会 让 用 户 感 竞 很 亲切 ， 就 像 见 了 老 熟 人 样 。 


为 什么 网 站 知道 用 尸 曾 经 浏览 过 呢 ? 因 为 网 站 为 了 辨别 用 尸身 份 ， 使 用 session 跟 路 并 将 数据 存储 在 了 用 尸 本 地 终端 上 。 妆 
你 重新 访问 该 网 站 的 时 候 ， 便 会 从 cookies 中 找 回 之 前 浏览 的 信息 。 


因此 ， 我 们 也 可 以 利用 cookies 保 存 之 前 登录 的 信息 ， 这 样 在 下 次 访问 网 站 的 时 候 ， 调 用 cookies 束 会 是 已 经 登录 的 状态 


在 10.1.1 小 节 ， 登 录 完 成 后 ， 可 以 在 代码 的 最 后 加 入 以 下 代码 ， 保 和 存 此 次 登录 的 cookies: 
session.cookies.save() 


cookies 和 存储 在 代码 所 在 的 文件 夹 中 。 使 用 记事 本 打开 该 文件 可 以 看 到 里 面 的 数据 ， 如 图 10-6 所 示 。 


| cookies - eee . l 4 = E . 
SRP SE) HEO) ev) 帮助 {H) 
I#LAP—Cookies-z. 0 
set -lookies: 
duoshuo_token="ey]0eXAiOi JEVIGILC ThbGcidiJIUZIINi ls. ey] zaGSydF SuTW11I joic2?FudG%2dGFuzyls 
InVzZX]fa2V5] jozLCJuyW1 ll joidGVedC] 9. O5YoRwfjJt0i6GF ob] dg2zACmbNoxk0YwCpCdhewVen : 
path="/": domain= wny. santostang. com’: path spec: expires= 2017-04-02 16:14:252": 
version 
SetCookie: wordpress logged in dibcd9atkddal 3f8de3ebadeb2cdfall= test 
MiCL4s lObd6oa7Cevt JUTNOLY jwa xrzMfmove fwLlhokd6moroPesNnofaa(Codsealdads07 2607 0b3d9asebl 
35945c360daaccftcelltbt3sTT7o00T7obec8sbec7eE > path=" /": domain= www. santostang. com : 
path spec: expires="201 7-04-02 16:14:252": httponly=None: version=0 
set —-Cookies: 
duoshuo_token="ev]0eXAi01 JEVIQILCThbGeidiJIUzI1iNis9. ev] zabaydF SurWllljoicePudsszdbFuévis 
In¥zeX]fazvVol jozLCJuYWI lI joidGV¥zdl 3. WofoRwt JJ tO16QF ob] des gACmoNoxkOTwCpCdhgw Ven i 
path=/wp-admin: domain= www. santostang. com: path spec: expires= 2017-04-02 
16:14:252": version=0 
SetookieS: wordpress df bcd9a?Sddal 3f8dc3e5adebecdfaTl=" test 
HPCL 491106460 (levi TUTWOLY jwat xrzM move fwlhokd6moroPesNnotoh (Carl fade ycatbbbabiesaadzsb 
eedsleTbdede fs eb edicdbAl f45d2eb20de6e”: path=/wp-admin"; domain= wy. santostang. com’: 
path spec: expires="201 7-04-02 16:14:252": httponly=None: version=0 
netlookics! wordpress di hedda pida] Sr Sdeaebedebeedtatte test 
HPCL49 1 0646S Teevi TUTHOLY peal src fmove fwLhobdbmsroPesNnof sh (Call fad fbi cafkbbabfhsaadZzhb 
ee dsleTbdede Foose edbcdbAl 245 d2eb20de6e° > path=" /wp-content/pluging’ ， 
domain= www. santostang. com’: path spec: expires=" 2017-04-02 16:14:252": httponly=None: 
versionsa 


图 10-6 cookies X44 


其 中 ，cookies 数 据 是 已 经 加 密 过 的 ， 每 一 个 cookie 大 概 会 定义 4 个 参数 : 


name 是 cookie 的 名 称 ， 这 里 一 般 进 行 加 密 处 理 ， 所 以 上 述 截图 中 的 name 已 经 经 过 加 密 ， 看 不 懂 是 什么 意思 了 ; expires 是 
cookie 的 到 期 日 期 和 时 间 ; path 是 指 cookie 的 路 径 ; domain 是 指 cookie 所 在 的 域名 。 


有 了 保存 下 来 的 cookies 后 ， 我 们 便 可 以 通过 加 载 cookies 实 现 登录 了 。 


步骤 01 导入 cookiejar 库 。 如 果 没 有 安装 这 个 库 ， 那 么 可 以 使 用 pip 安 装 。 在 cmd 中 输入 pip install cookiejar， 然 后 按 回 
车 键 安装 。 


导入 库 之 后 ， 需 要 加 载 在 计算 机 上 保存 的 cookie。 


如 果 没 有 出 现 “Cookie 未 能 加 载 ”， 惑 表示 Cookies 已 经 加 载 成 功 了 。 这 时 ， 我 们 可 以 创建 一 个 isLogin(0 的 函数 ， 用 来 检测 
是 否 已 经 登录 。 


如 果 用 户 个 人 信息 的 页 面 能 够 成 功 返 回 200， 融 表示 已 经 成 功 登录 了 。 这 时 可 以 调用 这 段 代 码 : 


如 果 出 现 “ 您 已 经 登录 ”， 我 们 丈 可 以 在 这 个 session 下 开始 胞 取 数 据 了 。 


10.1.3 “完整 的 登录 代码 


前 面 已 经 说 明了 如 何 登 录 表 单 和 使 用 加 载 cookie 的 方法 免 账 号 、 密 码 登 录 。 如 果 想 要 一 劳 永 逸 ， 在 没有 cookies 的 时 候 输 入 
账号 、 密 码 登录 ， 在 有 cookies 的 时 候 加 载 cookie 登 录 ， 就 可 以 把 这 两 部 分 内 容 结合 起 来 ， 组 合成 如 下 代码 : 


首先 ,创建 一 个 session， 在 session 中 尝试 加 载 过 去 可 能 保存 的 cookie， 然 后 用 isLogin(0 访 问 该 账户 的 个 人 信息 页 面 ， 以 判 
折 是 否 已 经 登录 。 如果 已 经 登录 ， 就 可 以 直接 用 这 个 session 访 问 其 他 网 页 获取 数据 。 


如 果 疝 未 登录 ， 融 调用 login(0 阔 数 登 录 网 页 ， 并 保 仔 cookie， 使 得 下 次 可 以 方便 调用 。 


10.2 ”验证 码 的 处 理 


在 平时 使 用 用 户 名 和 密码 登录 网 站 的 时 候 ， 不 免 要 输入 验证 码 ， 以 第 8 章 介绍 的 设置 验证 码 的 内 容 来 看 ，12306 火 车 票 订 票 
网 站 设置 复杂 的 验证 码 可 以 防止 恶意 订 票 程序 的 刷 票 行为 。 在 网 络 爬 虫 程序 处 理 表单 的 时 候 ， 我 们 也 需要 通过 验证 码 的 检测 才能 


完成 表单 的 上 传 。 


验证 码 (CAPTCHA) “Completely Automated Public Turing test to tell Computers and Humans Apart” (28 
动 区 分 计算 机 和 人 类 的 图 灵 测 试 ) W465, 2 PKDRPSTaVAECANARS ESE, DAG RSI IS, WR 
论坛 治水， 以 及 黑客 用 特定 程序 暴力 破解 密码 的 方式 进行 不 断 的 登录 安 试 。 


验证 码 是 由 计算 机 生成 的 ， 用 于 评判 一 个 问题 ， 必 须 由 人 类 才能 解答 ， 所 以 能 够 用 验证 码 来 区 分 人 类 和 计算 机 。 本 节 将 以 在 
笔者 的 博客 注册 账号 为 例 来 介绍 网 络 爬 虫 中 对 验证 码 的 处 理 。 注 册页 面 的 网 址 是 http://www.santostang.com/wp-login.php? 
action=register， 如 图 10-7 所 示 。 


Cha 10 -登录 与 驶 证 福村 X 


Q www.santostang.com/wp-login 


图 10-7 注册 页 面 
在 网 络 爬 虫 中 ， 处 理 验证 码 主 要 有 两 种 方式 : 
(1) 人 手 输入 处 理 。 


(2) OCR 识别 处 理 。 


10.2.1 ”如 何 使 用 验证 码 验 证 


打开 网 页 后 ， 可 以 用 Chrome 浏 览 器 的 “审查 元 素 ” 功 能 找到 form 表 单 需 要 的 input， 如 图 10-8 所 示 。 


| a D AAE OA Santos « 


€ CO © www.santostang.com/wp-iogi 
opangga 
S9 À 
验证 码 


HER SERAS, 


fe Al 5 


Timeline Profiles AppĒcetion Security Audits 


lgsi form id=regaprefixv=wlaz4xuonnSvl0Om" width="132" neignt="45" alt="CAPTCHA” title="CAPTCHA 之 | ted 
= A 5 i a : = 5 Styles | Computed 上 
dġ="si_code_reg" namz=-"si_code_reg" type="hidden" voluc-"Wlar4xuonhSviCOm Bt, = 


Pater 
#" rel="nofollow” title-"Refresh” onclick-"si_captcha_refresh("si_image reg','reg','/wp-content/plugins/si-captcha-for-wordpress, 
captcha’, ‘http: //waw. santosteng. con/wp-content/plugins/si-captcha-for-wordpress/ceptcha/secur image_show,. php? 
£i_sm_captcha=l&si_form_id=reg&prefix='); return false;">..</a 


/div 


element.style 
上 
“ydiv 


„login form 
<p 


,input { 

border-style: none! important; 
nA R S border -width;b Spx !importent; 
ZIEH } 
br 


,login form dp- login. php?ac..on=r 


Velabel for="si_captcha_code 
input id-"si captcha code" nome-~°si captcha code” class-"i 
jlabel 


/p 
p id="reg_passmail” > ERRUR RS WaT o </p 
br class-"clear” 
input type="hidden” name="redirect_to” wall 
Vep class-"subnit” 
input type="submit” name="wp-submit” ic="wp-submit” class="button button-primary button-lerge” value=" Ef} 
-login form 
„input { 
border-radius:® Spx !importent; 


} 


v 


图 10-8 ”找到 form 表 单 需要 的 input 


按照 前 面 提 到 的 方法 找到 该 表 单 中 所 有 的 input。 为 了 不 落下 任何 一 个 input， 可 以 使 用 Ctrl+F 快 捷 键 的 查找 功能 。 如 图 10- 
9 所 示 ， 输 入 <input 找 到 了 6 个 需要 输入 的 参数 。 


| html body dnm#login form#registerform p label 


———— 


FGA v Cancel , 


图 10-9 ”输入 <input 
这 6 个 input 人 参数 分 别 是 : 


(1) 用 户 名 ，key 值 为 user login， 如 图 10-10 所 示 。 


¥<label for="user_login"> 


"HPE 


<input type="text" name="user_login" id="user_login" 


图 10-10 ”用户 名 的 键 值 


(2) 电子 邮件 ，key 值 为 user email， 如 图 10-11 所 示 。 


¿label for="user_email™> 


"电子 邮件 


<input type="email" name="user_email” id="user_email” class="input' 


Value size="25"> 
¿cf label» 


图 10-11 电子 邮件 的 键 值 


(3) 验证 码 动态 匹配 码 ，key 值 为 si_code_reg， 如 图 10-12 所 示 。 


EE ee n = 


加 i i 3 = T p : pire = a E 天 
si_codge_reg type val wlaz4xuonnSviCOm 


图 10-12 ”验证 码 动 态 匹 配 码 的 键 值 


(4) 验证 码 (数字 形式 ) ，key 值 为 si_ captcha_ code， 如 图 10-13 所 示 。 


si captcha code 


s1 captcha code” name="51 captcha code" class="input” type= 


图 10-13 ”验证 码 (数字 形式 ) 的 键 值 


(5) 隐藏 ，key 值 为 redirect to，value 值 为 空 ， 如 图 10-14 所 示 。 


图 10-14 ”隐藏 的 键 值 


(6) 提交 ，key 信 为 wp-submit， 但 是 我 们 不 需要 提交 ， 如 图 10-15 所 示 。 


submit" name="wp-submit™ id="wp-submit"” class="button button-primary button-large 


图 10-15 提交 的 键 值 


这 里 重要 的 是 第 3 个 参数 : 验证 码 动 态 匹 配 码 ， 代 表 某 一 张 验 证 码 图 片 。 


这 也 是 我 们 理解 验证 码 机 制 的 关键 : 因为 每 一 次 打开 网 页 的 时 候 验 证 码 图 片 都 会 不 一 样 ， 当 我 们 输入 验证 码 的 时 候 ， 输 入 的 
数字 (如 图 10-8 的 S9em) 会 和 si_code_reg 的 value 进 行 匹 配 ， 这 里 是 W1az4xuonhSv1COm。 如 果 匹 配 成 功 ， 就 代表 验证 通 


10.2.2 人工 万 法 处 理 验 证 码 
人 工 方法 处 理 就 是 在 胞 虫 程序 运行 的 时 候 弹 出 一 个 验证 码 输入 框 ， 我 们 需要 手动 输入 验证 码 。 这 需要 我 们 守 在 计算 机 面前 ， 
才能 保证 输入 验证 码 的 准确 性 。 下 面 介绍 使 用 人 工 方法 处 理 验证 码 的 步 又 


步骤 01 ”获取 验证 码 动态 匹配 码 。 我 们 可 以 定义 一 个 get si code() 国 数 ， 它 会 进入 注册 页 面 ， 从 HTML 代 码 中 用 re.search 
方法 获取 si code _ reg 的 值 ， 最 后 返回 这 个 值 。 


步骤 02 ”输入 相应 的 匹配 码 。 我 们 定义 了 get captcha() 函 数 ， 它 会 使 用 get 方 法 获取 那 张 si_ code 的 验证 码 图 片 ， 并 存储 至 
源 代码 所 在 的 地 址 。 在 这 之 后 ， 如 果 安 装 了 Pillow 库 ， 束 会 使 用 open() 将 验证 码 图 片 打 开 ; 如 果 没 有 安装 Pillow， 束 需要 手动 找 
到 并 打开 这 张 图 片 ， 之 后 输入 图 片 中 的 验证 码 。 


Pillow 可 以 使 用 pip 安 装 : pip install pillow. 


步骤 03 ”准备 注册 上 交 的 表单 。 使 用 register 国 数 将 表单 中 的 数据 准备 好 ， 加 上 验证 码 一 起 ， 提 交 POST 请 求 ， 并 进行 注 
册 。 若 输出 打印 结果 为 200， 则 表示 注册 成 功 。 


步骤 04 ”输入 用 户 和 邮箱 ， 调 用 前 面 3 个 步骤 写 好 的 消 数 来 执行 程序 。 


在 程序 运行 的 时 候 需 要 手动 输入 验证 码 。 如 果 安 洲 了 Pillow， 丈 会 直接 打开 验证 码 图 片 ， 如 图 10-16 所 示 (每 次 验证 码 都 会 
不 一 样 ) 。 


图 10-16 INEA 
这 时 在 输入 框 中 输入 3p5e， 按 回 车 键 之 后 ， 如 果 出 现 200， 融 表示 注册 成 功 。 
please input the captcha 


>3p5e 
200 


这 样 的 人 工 方法 处 理 虽 然 没有 达到 100% 的 完全 目 动 化 ， 但 是 能 够 保证 每 次 验证 码 输入 的 正确 性 ， 是 一 种 比较 方便、 快捷 的 
Jaz 


10.3 Bas 


本 章 介 绍 了 如 何 使 用 Python 程序 登录 表单 、 如 何 使 用 程序 识别 验证 码 。 其 实 ， 大 部 分 网 站 不 欢迎 使 用 程序 进行 登录 ， 因 为 
需要 登录 才能 耕 看 的 数据 不 属于 公开 数据 。 因 此 ， 本 章 的 程序 仪 供 读者 练习 ， 请 不 要 使 用 此 程序 获取 非 公 开 数 据 或 批量 注册 ， 乔 
出 现 了 问题 ， 请 目 负 责任 。 


第 11 章 ”服务 器 米 集 


前 面 介 绍 的 都 是 本 机 上 的 网 络 季 虫 ， 包 括 如 何 获 取 网 页、 如 何 解 析 网 页 上 的 数据 以 及 将 数据 存储 在 文件 或 数据 库 中 。 除 此 之 
外 ， 还 介绍 了 在 遇 到 有 拒 虫 问题 的 时 候 的 各 种 解决 方法 。 


本 草 将 介绍 一 种 方法 ， 能 够 解放 你 的 计算 机 ， 让 有 息 虫 程序 运行 在 “ 云 ” 上 ， 也 能 够 让 你 随意 改变 目 己 的 IP 地 址 ， 进 而 走出 肛 
Faas | PAYEE. 


11.1 为 什么 使 用 服务 露 米 集 


经 过 前 几 章 的 学 习 ， 大 家 可 能 已 经 习惯 在 本 机 的 Jupyter 上 写 爬 虫 程序 了 。 如 果 是 小 规模 的 爬虫 或 测试 聆 虫 程序 ， 这 也 许 已 
经 绰绰有余 。 但 当 编 写 大 规模 的 和 胞 虫 程 序 时 ， 在 服务 器 上 部 署 胞 虫 束 不 可 避免 了 。 使 用 服务 器 米 集 有 了 两 大 原因 : 


(1) 大 规模 爬虫 的 需要 。 


(2) 防止 IP 地 址 被 封杀 。 


11.1.1 ”大 规模 爬虫 的 需 


你 知道 世界 上 最 大 的 网 络 有 季 虫 是 什么 吗 ? 管 案 是 搜索 引擎 。 


根据 谷歌 官方 网 站 的 统计 数字 ， 合 歌 搜 索引 掌 已 经 收录 了 超过 130 万 亿 个 网 页 ， 而 且 还 在 持续 而 迅速 地 增长 中 ， 这 占用 了 起 
过 100PB (等 于 100000TB) 的 存储 。 


本 书 中 的 聆 虫 程序 在 谷歌 搜索 引擎 面前 残 像 是 地 球 上 的 一 只 小 蚂蚁 。 也 许 我 们 的 爬虫 永远 不 会 有 谷歌 的 体 量 ， 但 当 有 一 天 需 
要 疏 取 的 不 再 是 测试 数据 ， 而 是 要 从 多 个 网 站 收集 数据 的 时 候 ， 融 需要 大 规模 的 爬虫 。 


当 我 们 需要 乳 取 大 量 数 据 的 时 候 ， 胞 虫 程序 可 能 需要 运行 儿 天 几 夜 。 如 果 程序 还 运行 在 个 人 计算 机 上 时 ， 一 方面 会 影响 你 正 
单 使 用 计算 机 ， 如 玩 游戏 、 浏 览 网 页 等 ; 另 一 方面 计算 机 要 一 直 处 于 开机 状态 ， 一 旦 关机 ， 疏 虫 融会 停止 运行 。 使 用 服务 器 可 以 
解放 你 的 个 人 计算 机 ， 而 且 买 一 个 服务 器 并 不 贵 ， 通 常 只 需 几 美 元 一 个 月 。 


另外 ， 当 我 们 有 拒 取 大 量 数 据 的 时 候 ， 一 从 计算 机 的 计算 能 力 可 能 不 够 。 殊 像 搬 运 粮 食 ， 一 个 人 搬 可 能 需要 十 天 半 个 月 ， 但 是 
如 果 召 集 100 多 个 人 一 起 搬 ， 可 能 需要 不 到 一 天 的 时 间 。 所 以 ， 这 时 候 需 要 用 到 分 布 式 乳 虫 ， 调 集 多 台 机 器 完成 一 个 代 虫 任务 ， 
并 且 可 以 把 所 有 的 数据 都 存储 在 一 个 数据 库 中 。 


分 布 式 胞 虫 是 比较 复杂 的 系统 ， 如 果 读 者 对 分 布 式 乳 虫 感 兴 趣 ， 可 以 搜索 Celery 和 Redis 部 署 分 布 式 季 虫 相关 的 内 容 。 


11.1.2 ”防止 IP 地 址 伞 封 杀 


前 面 已 经 介绍 过 如 何 让 拒 虫 程序 模仿 人 类 正常 的 访问 ， 即 调整 间 隅 时间 和 header。 但 是 乳 虫 程序 的 目的 是 大 量 获 取 网 站 上 
的 数据 ， 免 不 了 非 正 常 地 多 次 访问 某 个 网 站 。 这 时 网 站 可 以 通过 多 次 访问 进而 封杀 1P， 如 果 胞 虫 只 是 在 单机 上 运行 ,一旦 被 封杀 
了 IP， 拒 虫 丈 会 变 得 举步维艰 。 

当然 ， 在 个 人 计算 机 上 运行 他 虫 也 有 应 对 的 方法 ， 可 以 维护 一 个 代理 IP 池 。 但 是 网 上 的 免费 代理 大 多 失效 很 快 ， 而 且 运 行 组 
慢 ， 残 算是 收费 的 代理 IP 也 十 分 不 稳定 ， 这 样 的 代理 池 维 护 起 来 十 分 不 讨 巧 。 


使 用 动态 IP 拨 号 服务 器 的 ADSL 拨 号 方法 和 和 Tor 进行 代理 访问 的 方法 可 以 成 功 修改 访问 网 站 的 IP， 效 果 非 党 好 。 下 面 进 行 详细 


11.2 ”使 用 动态 |P 执 号 服务 器 


动态 |P 拨 号 服务 器 正如 其 名 ，IP 地 址 是 可 以 动态 修改 的 。 动 态 IP 拨 号 服务 器 并 不 是 什么 高 大 上 的 服务 器 ， 相 反 ， 属 于 配置 非 
党 低 的 一 种 。 我 们 看 中 的 不 是 它 的 计算 能 力 ， 而 是 能 够 实现 秒 换 IP 地 址 。 


拨号 上 网 有 一 个 独特 的 特点 ， 就 是 每 次 拨号 都 会 换 一 个 新 的 I|P 地 址 。 家 庭 中 的 上 网 方式 多 数 都 用 的 是 ADSL 拨 号 上 网 ， 也 就 
是 断 开 网 络 后 再 拨号 一 次 ， 外 网 IP 束 会 换 成 另 一 个 。 


一 般 来 咬 ， 这 个 1P 池 很 大 ， 可 能 有 多 个 AB 段 ，IP 数 量 基本 上 用 不 完 。 对 于 有 候 虫 来 说 ， 这 简直 是 大 杀 器 ， 能 够 轻松 解决 封杀 
IP 的 限制 。 


11.2.1 ”购买 拔 号 服务 器 
购买 动态 |P 拨 号 服务 器 可 以 在 网 页 上 搜索 “ADSL 服 务 器 ”或 “动态 IP 服 务 器 ”， 在 搜索 结果 中 可 以 看 到 很 多 供应 商 ， 选 择 
一 个 包月 的 ADSL 拨 号 服务 器 即 可 。 有 些 供应 商 还 提供 1 元 钱 测试 24 小 时 的 服务 。 


这 里 选择 Windows XP 系统 的 动态 IP 拨 号 服务 器 作为 我 们 拒 虫 的 服务 器 。 


11.2.2 ”登录 服务 器 


购买 动态 |P 拨 号 服务 器 之 后 会 获得 服务 器 地 址 、 用 户 名 和 密码 ， 还 会 获得 拨号 上 网 的 用 户 名 和 密码 ， 例 如 : 
服务 器 地 址 一 117.18.69.122 

服务 器 用 户 名 一 administrator 

服务 器 密码 一 pwd 

拨号 上 网 用 户 名 一 07551234567 

拨号 上 网 密码 一 12345 

接 下 来 讲解 动态 IP 拨 号 和 登录 服务 器 的 步骤。 


步骤 01 在 “开始 ”菜单 中 搜索 mstsc， 找 到 一 个 mstsc.exe 文 件 ， 单 击 并 打开 ， 如 图 11-1 所 示 。 


程序 (1) 
a) mstsc.exe 
we (1) 
| uporade_bulk.xml 


图 11-1 搜索 mstsc 


步骤 02 ”在 弹出 的 “远程 果 面 连接 ”对 话 框 中 填写 登录 的 服务 器 IP 地 址 。 如 果 有 端口 ， 丈 把 端 口号 写 上 ， 如 图 11-2 所 示 。 


计算 机 (0): T7885x3. 9968, org: 17278 


用 户 名 :SX1-17276\hdministrator 
当 您 位 接 时 将 向 您 得 问 息 据 。 


le 选项 人 @) 


图 11-2 “远程 桌面 连接 ”对 话 框 


步骤 03 ”在 弹出 的 “登录 到 Windows” 对 话 框 中 输入 用 户 名 和 密码 登录 ， 如 图 11-3 所 示 。 
登录 到 Vindors 

Copyright ©) 1985-2001 

Mcrosoft Corporation 


用 户 名 四 
mO 


图 11-3 “登录 到 Windows” 对 话 框 


11.2.4 ”结合 胞 虫 和 更 换 IP 功 能 


我 们 可 以 将 爬虫 和 更 换 IP 功 能 结合 起 来 ， 也 融 是 说 当 礁 虫 结果 返回 错误 的 时 候 ， 可 以 更 换 一 个 |P， 然 后 使 用 一 个 递归 冰 数 再 
进行 他 取 ， 代 码 如 下 : 


将 上 面 的 他 虫 程序 和 changelP.py 放 在 同一 个 文件 夹 中 ， 才 能 使 用 import changelP 将 更 换 IP 的 class 导 入 。 


这 里 定义 了 一 个 负责 乳 虫 的 辫 数 scrapy0， 最 大 的 尝试 次 数 为 3。 如 果 有 拒 虫 过 程 报错 ， 并 且 滨 试 次 数 大 于 0， 残 会 调用 
changelP 重 新 拨号 上 网 ， 达 到 更 换 IP 的 目的 。 更 换 IP 之 后 ， 表 使 用 递归 立 数 执行 一 次 scrapy0 立 数 ， 束 能 把 结果 肛 取 下 来 了 。 


11.3 ”使 用 Tor 代 理 服务 器 


Tor (The Onion Router, "FARE" ) 是 互联 网 上 用 于 保护 隐私 最 有 力 的 工具 之 一 。 如 果 我 们 不 使 用 Tor， 网 络 请 求 吏 
会 直接 友 送 给 目标 服务 器 。 


相 比 之 下 ， 如 果 使 用 Tor 发 送 网 络 请 求 ， 客 户 端 束 会 选择 一 条 随机 的 路 径 到 目标 服务 器 。 这 条 随机 的 路 径 中 间 会 经 过 多 个 
Tor 的 节点 ， 而 且 使 用 “ 洋 慈 路 由 ”加 密 技术 ， 使 得 任何 节点 都 不 能 偷 取 通 信 数 据 ， 并 且 该 请 求 的 传送 路 径 难 以 追 味 ， 也 查 不 出 
起 点 在 哪儿 ， 如 图 11-5 所 示 。 


E How Tor Works: 2 + Tor node 


-q UNOncrypted link 
—. encrypted link 


Alice 


Step 2: Alice's Tor client 
picks a random path to 


destination server. Green 
links are encrypted, red 
links are in the clear. 


图 11-5 “HAKH po BTR 


MR Re ASS te: 一 般 为 了 快捷 方便 ， 快 递 公 司 可 能 直接 将 快递 友 往 北京 ; Tor 网 络 为 了 让 北京 的 接收 
者 不 知道 是 从 何 处 寄 过 来 的 ， 将 快递 随机 友 往 一 些 节点 (如 深圳 -南昌 -武汉 -济南 -石家庄 -北京 ) ， 整 个 路 径 都 会 通过 “洋葱 路 
由 ”技术 加 密 。 每 一 个 站 点 的 入 站 和 出 站 通信 都 可 以 被 查 到 ， 但 是 想 要 允 道 真正 的 起 点 和 终点 ， 几 乎 是 不 可 能 的 。 


因此 ， 我 们 可 以 利用 Tor 技 术 改 变 请 求 的 IP 地 址 ， 作 为 一 种 终极 的 防止 IP 封 锁 的 候 虫 方案 。 


11.3.1 Tor 的 安装 


对 于 不 同 的 操作 系统 ，Tor 的 安装 方法 有 所 不 同 。 相 对 于 Mac OS 或 Linux 来 说 ， 在 Windows 下 使 用 Tor 比 较 复杂 。 下 面 将 会 
介绍 在 Windows 系 统 下 Tor 的 安装 步骤 。 对 于 Mac OS 或 Linux 系 统 的 安装 ， 可 以 参 
照 https://www.torproject.org/docs/debian.html.en。 


Tor 的 安 半 方式 分 成 ExXpert Bundle 和 Tor Browser (Tor 浏 览 器 ) , Expert Bundle 是 非 图 形 化 界面 的 使 用 Tor，Tor 浏 览 号 
则 是 一 个 可 以 隐藏 自己 iP 使 用 的 浏览 器 。 在 Windows 系 统 下 ， 我 们 最 好 选择 Tor; 浏 览 器 ， 有 了 程序 化 的 安 闪 界面 ， 其 安 六 过程 也 
会 更 加 简单 快捷 。 


步骤 01 下 载 Tor 浏 览 器 。 进 入 Tor 官 方 网 站 下 载 Tor 浏 览 器 ， 地 址 
为 https://www.torproject.org/projects/torbrowser.html.en， 如 图 11-6 所 示 。 


Sofware & Services: - Arm - Orbot - Tails = TorBirdy - Onionoo - Metrics Portal = Pluggable Transports - Shadow - Tor2Web 


What is Tor Browser? 


The Tor software protects you by bouncing your communications around 
i a distributed network of relays run by volunteers all around the world: it 

BROWSER prevents somebody watching your Internet connection from learning what 
sites You visit, it prevents the sites you visit from leaming your physical 
location, and it lets you access sites which are blocked. 


DOWNLOAD 


! 4 pear Tor Browser lets you use Tor on Windows, Mac OS X, or LINUX without 

needing to install any software. It can run off a USB flash drive, comes 
with a pre-configured web browser to protect your anonymity, and is self- 
contained (portable). 


Installation Instructions 
Windows - Mac OS X + Linux Do you ike what we do? Please consider making a donation » 


图 11-6 “下载 Totr 浏 览 器 


步骤 02 ”安装 和 设置 Tor 浏 览 器 。 下 载 完 成 后 ， 和 直接 打开 安 六 文件 ， 单 击 Install， 安 装 在 相应 文件 夹 即 可 ， 如 图 11-7 所 示 。 


5 Tor Browser Setup L «= | 


Choose the folder in which to install Tor Browser. 


Setup will install Tor Browser in the following folder. To install in a different folder, click 
Browse and select another folder. Click Install to start the installation. 


Destination Folder 


C:\Users Administrator \Desktop\Tor Browser 


Space required: 137.8MB 
Space available: 56.0G6 
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图 11-7 选择 文件 夹 


安装 完成 后 ， 单 击 Finish 开 局 Tor 浏 览 器 的 设置 。 如 果 你 在 中 国内 地 ， 无 法 直接 单 击 Connect 连 接 Tor， 那 么 可 以 单 击 
Configure 进 行 设置 ， 如 图 11-8 所 示 。 在 下 一 个 对 话 杠 中， 将 互联 网 服务 提供 商 (ISP) 是 否 审查 连接 至 Tor 的 网 络 这 个 选项 选 
为 Yes， 然 后 单 击 Next， 如 图 11-9 所 示 。 


+X 


Tor Network Settings 


Before You Connect to the Tor network, you need to provide 
Information about this computer's Internet connection. 
BROWSER 
Which of the folowing best describes your situation? 


T would ike to make a direct connection to the Tor network. 
This wil work in most Situations. 


This computer's Internet connection is censored or proxied. 
I need to configure bridge or local proxy settings before I connect to the Tor network. 


| Configure 


图 11-8 ”设置 Tot 浏 览 器 


Tor Network Settings 
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BROWSER Tor Bridges Configuration 


Does your Internet Service Provider (ISP) block or otherwise censor connections 


F you are not sure how to answer this question, choose No [if you are unable to connect 
to the Tor network without a bridge, you can add one later). 


F you choose Yes, you wil be asked to configure Tor Bridges, which are unlisted relays 
that make it more difficult to block connections to the Tor Network. 


For assistance, visit torproject.org/about/contact html# support 


图 11-9 ISP Ge SiH 2 Tor 


此 页 的 设置 选择 Connect With provided bridges (使 用 已 提供 的 桥 ) ， 如 果 你 在 中 国内 地 ， 那 么 需要 使 用 中 间 的 桥 才 能 连 
接 Tor 的 服务 ， 然 后 在 下 拉 列 表 框 中 选择 meek-amazon， 单 击 Next 按 钮 ， 如 图 11-10 所 示 。 在 下 一 个 对 话 框 中 ， 将 这 台 计 算 机 
是 否 需要 一 个 本 地 代理 连接 互联 网 选项 设置 为 No， 单 击 Connect 按 钮 ， 如 图 11-11 所 示 。 


Tor i Sean 5 


eyo 
BROWSER Tor Bridges Configuration 
You may use the provided set of bridges or you may obtain and enter a custom 


set of bndges. Each type of bridge uses a different method to avoid censorship. 
If one bridge does not work, try again using a different one. 


@ Connect with provided bridges 
Transport type: |mee 


rt tele > | 
Dem dte 


Enter one or mo bral 
type address:p meek-azure 
obts3 
obis4 (recommended) 


For assistance, visit torproject.ora/about/contact. htm support 


= Back | 
pM) 


图 11-10 ”选择 meek-amazon 


Tor heres Settir Js 


In most cases a local proxy & not needed, but it may be required when connecting 
through a company, school, or university network. 


If YOu are not sure how to answer th question, bok at the Intemet settings in another 
browser or check ‘your system's network settings to see whether a local proxy is needed. 


For assistance, vist torproject.org/about/contact. html#support 


<Back || Connect | Ext | 


图 11-11 是 否 需 要 一 个 本 地 代理 连接 互联 网 


这 时 会 出 现 一 个 连接 对 话 框 ， 如 图 11-12 所 示 。 上 顺利 完成 之 后 融会 打开 Tor 浏 览 器 ， 如 图 11-13 所 示 。 


Tor Status 


Connecting to the Tor network 


Establishing an encrypted directory connection 


Please wait while we establish a connection to the Tor 
network. This may take several minutes. 


图 11-12 ”连接 对 话 杠 


of About Tor x is 


| SR ger $ itor Browse | Search or enter address C M femi 


Welcome to Tor Browser 


You are now free to browse the Internet anonymously. 


Test Tor Nefwor 


Geah seusehy with Chetek Gs 


What Next? You Can Help! 

Tor rs NOT all you need to browse There are many ways you can help 
anoanymoush! You may need to make the Tor Network faster and 
change some of your browsing stronger 
habits to ensure your identity stays « Runa Tor Relay Node + 

5 vy | 

a * Volunteer YOu SETVICES s 

* ips On staying Anonymous a + Make a Donation » 


® Tor Browser User Manual » 


图 11-13 Tot 浏览 器 


Tor Browser 一 
CÈ 


0.7 


11.3.2 Tor 的 使 用 


Tor 可 以 改变 我 们 请 求 的 iP 地址 。 下 面 先 介绍 在 Python 中 如 何 使 用 Tor， 然 后 介绍 如 何 使 用 Tor 多 次 改变 请 求 的 IP 地 址 。 由 于 
Tor 采 用 的 是 Sock 请 求 ， 因 此 需要 安装 PySocks 库 ， 可 以 使 用 pip 安 装 : 


pip install pysocks 


安装 完成 后 ， 可 以 用 下 面 的 代码 完成 利用 Tor 改 变 请 求 的 IP 地 址 。 


import socket 
import socks 
import requests 


# Tor {#74 9150%9 O ISRA H] socks žm HO 
socks. set, detare proxy (socks sOCKSo,. “lz770.0.1", 9150) 
socket.socket = socks.socksocket 


# 获取 这 次 抓 取 使 用 的 IP 地 址 


a = requests.get("http://checkip.amazonaws.com") .text 
print (a) 


bi CAS, Torb8tAim 0799150, Fei FAsocksipkim 91502 We Risk, Y0E11-14Fim. SAimOaLAeeTor 
浏览 器 的 安装 地 址 找到 ， 假 设 把 Tor; 浏 览 器 安装 在 C:\Program Files\Tor Browser， 默 认 端 口 就 在 CN\Program Files\Tor 
Browser\Browser\TorBrowser\Data\Tor\torrc-defaults 文 件 中 。 


SocksPort 9150 IPv6Traffic PreferIPv6 KeepAlivelIsolateSOCKSAuth 


ControlPort 9151 
CookieAuthentication 1 


图 11-14 ”使 用 9150 端 口 发 出 请 求 


通过 请 求 http://checkip.amazonaws.com 获 取 这 次 抓 取 使 用 的 iP 地址， 这 次 的 输出 结果 是 : 85.248.227.164 (你 的 输出 结 
果 应 该 和 这 个 不 一 样 ， 因 为 Tor 的 路 径 是 随机 的 ) 。 我 们 可 以 通过 百度 查询 该 I1P 所 在 的 地 址 ， 友 现 与 本 机 的 IP 地 址 不 一 样 ， 如 图 
11-15 所 示 。 


iP 本 机 IP: 137.189.206.66 香港 特别 行政 区 


85. 248.221.164 
85.248.227.164 来 自 其 党 做 克 


f= 三 mit DE. ai. 


图 11-15 ” 抓 取 使 用 的 IP 地 址 


虽然 目标 服务 器 已 经 不 知道 我 们 真正 的 IP 地 址 ， 但 是 如 果 继 续 请 求 该 目标 服务 器 ， 目 标 服务 器 获取 的 请 求 束 会 来 自 于 同一 个 
伪 涂 IP， 导 致 伪 沪 的 IP 被 封杀 。 因 此 ， 如 果 能 够 改变 伪 北 的 IP， 束 完全 不 用 担心 候 虫 被 封杀 IP 的 问题 了 。 


要 更 新 |P， 可 以 通过 ControlPort 连 接 Tor 的 服务 ， 然 后 发 出 一 个 NEWNYM 的 信号 。 安 装 tor 浏 览 器 的 时 候 已 经 默认 
ControlPort 的 端口 是 9151， 如 图 11-14 所 示 。 这 里 可 以 使 用 Python 的 stem 库 完成 上 述 要 求 。 


首先 ， 使 用 pip 安 装 stem: 


安装 完成 后 ， 可 以 使 用 下 面 的 代码 实现 抓 取 和 更 换 IP。 


这 里 用 到 了 stem 中 的 controller 模 块 ， 通 过 Controller.from port(port=9151) 使 用 ControlPort 的 9151 端 口 ， 并 使 用 
controller.authenticate() 进 行 验证 ， 由 于 在 默认 状态 下 不 需要 密码 ， 因 此 括号 中 留 空 束 可 以 了 。 需 要 更 新 iP 时， 可 以 使 用 
controller.signal(Signal.NEWNYM)。 最 后 输出 的 结果 是 : 


第 1 YIP: 141.170.2.53 

第 1 次 抓 取 花费 时 间 : 4.294245481491089 

第 1 次 更 换 卫 花费 时 间 : 0.0012862682342529297 
第 2 YIP: 5.148.165.13 

第 2 次 抓 取 花费 时 间 : 4.186239242553711 

第 2 WEK IP 花费 时 间 : 0.0032863616943359375 
第 3 YIP: 46.105.100.149 

第 3 次 抓 取 花费 时 间 : 4.88327956199646 

第 3 次 更 换 IP 花费 时 间 : 0.004286050796508789 


第 10 YIP: 178.18.83.215 

第 10 次 抓 取 花费 时 间 : 4.512258291244507 

第 10 次 更 换 IP 花费 时 间 : 0.0012862682342529297 
平均 抓 取 花费 时 间 : 4.693568444252014 

平均 更 换 IP 花费 时 间 : 0.004586362838745117 


这 里 进行 了 10 次 循环 ， 可 以 大 概 估算 一 下 使 用 Tor 的 效率 。 每 进行 一 次 循环 ， 抓 取 使 用 的 |P 融 会 更 换 一 次 。 另 外 ， 抓 取 人 花费 
的 时 间 和 和 更换 IP 化 费 的 时 间 都 比较 稳定 ， 平 均 抓 取 博客 主页 人 花费 的 时 间 为 4.7 秒 ， 更 换 IP 的 速度 可 以 忽略 不 计 ， 这 里 已 经 减 去 了 
休息 的 5 秒 。 


如 果 不 使 用 Tor， 要 正常 抓 取 博 客 主 员 10 次 ， 和 Tor 的 速度 相 比 怎么 样 呢 ? 


下 面 是 未 使 用 Tor 进 行 抓 取 的 结果 : 


如 果 不 使 用 Tor， 平 均 抓 取 时 间 束 会 少 了 一 半 多 ,只 有 2.01 秒 。 


第 1 次 抓 取 人 花 纲 时 间 : 
第 2 次 抓 取 化 纲 时 间 : 
第 3 次 抓 取 人 花 纲 时 间 : 
第 4 次 抓 取 人 花费 时 间 : 
第 5 次 抓 取 化 纲 时 间 : 
第 6 次 抓 取 人 花 纲 时 间 : 
第 7 次 抓 取 化 纲 时 间 : 
第 8 次 抓 取 人 花 纲 时 间 : 
第 9 次 抓 取 人 花费 时 间 : 
第 10 次 抓 取 花 费时 间 : 0.6170353889465332 


2.0871193408966064 
3.737213611602783 

2.1731245517730713 
0.7140407562255859 
0.7370424270629883 
0.6420366764068604 
0.9130520820617676 
0.6390366554260254 
7.861449718475342 


平均 抓 取 花费 时 间 : 2.0121151208877563 


可 能 会 降低 抓 取 效 率 。 但 是 它 也 有 不 容 忽 视 的 优点 : 


(1) 完全 免费 。 


(2) 更 换 IP 过 程 较为 稳定 ， 速 度 快 ， 相 比 代理 池 更 稳定 。 


op 1 Qe 


看 来 Tor 经 过 


BS 


DINER 


AAA BRA Ete SARE], 


MGRA, MAOR SKURAR ARS E, FR E S, WACA S FARA E 
础 技术 获取 数据 ， 但 是 这 样 单 线程 的 聆 虫 效率 十 分 低 ， 会 将 大 量 时 间 滔 费 在 等 街中 。 


通过 第 7 草 到 第 11 草 的 学 习 ， 应 该 能 够 使 用 多 线程 、 多 进程 或 多 协 程 成 倍 提升 胞 虫 的 效率 ， 其 
把 目 己 的 个 人 计算 机 解放 出 来 ， 襄 明 已 经 能 够 提供 一 


但 是 ， 


(1) 服务 器 之 间 没 有 通信 ， 


每 个 服务 器 的 待 他 网 页 还 是 需要 手动 分 配 。 


个 较为 成 熟 的 爬虫 方案 了 。 


(2) 存储 数据 还 是 在 各 个 服务 器 上 ， 并 没有 集中 存储 到 某 一 个 服务 器 或 数据 库 中 。 


全 通过 将 爬虫 部 


即使 能 够 将 爬虫 部 署 在 不 同 服务 器 上 ， 在 不 同 服务 器 上 使 用 多 线程 朴 虫 提升 效率 ， 仍 然 仓 在 两 个 问题 : 


Hi 


本 章 介 绍 的 分 布 式 爬 虫 能 够 很 好 地 解决 这 个 问题 。 通 过 使 用 分 布 式 聆 虫 ， 一 方面 能 极 大 地 提高 爬虫 的 效率 ; 另 一 方面 ， 不 同 
服务 器 之 间 的 统一 管理 能 够 实现 从 不 同 服务 器 聆 虫 的 队列 管理 到 数据 仓储 的 优化 。 


12.1 


安装 Redils 


Redis 是 一 个 基于 内 存 的 Key-Value 数 据 库 ， 支 持 的 数据 类 型 有 string、lists、sets、zsets。 这 些 数 据 类 型 都 支持 
push/pop、add/remove 以 及 取 交 集 、 并 集 、 差 集 等 操作 ， 对 这 些 操作 都 是 原子 性 的 。 因 此 ， 使 用 Redis 可 以 很 轻松 地 实现 高 并 
发 的 数据 访问 。 

在 分 布 式 中 ，Redis 的 队列 性 特别 好 用 ， 被 用 来 作为 分 布 式 的 基石 。 我 们 即将 实践 的 内 容 是 在 多 人 台 机 器 上 安装 Redis， 然 后 让 
一 人 台 作 为 服务 器 ， 其 他 机 器 开局 客户 端 共享 队列 。 


首先 ， 需 要 在 Windows 上 安装 Redis， 安 装 过 程 并 复杂 ， 步 又 如 下 : 


步骤 01 进入 Redis for Windows 下 载 页 面 (https://github.com/MSOpenTech/redis/releases) 下 载 最 新 版 Redis， 记 
住 是 ZIP 文 件 ， 如 图 12-1 所 示 。 


-5 enncogior released this on 1 Jul 2016. 1208 commits to 3.0 since 
This is the first release of Redis on Windows 3.2. 


This release is based on antirez/redis/3.2.1 plus some Windows specific fixes. It has passed all the 


standard tests but it hasn't been tested in a production environment. 


Therefore, before considering using this release in production, make sure to test it thoroughly in your 


own test environment. 


See the release notes for details. 


Downloads 


CM! Redis-x64-3.2.100.msi 
O Redis-x64 3.2.100.zip 
国 Source code Zip) 


四 Source code (tar gz) 


图 12-1 下载 最 新 版 Redis 


步骤 02 将 ZIP 文 件 解压 并 放 在 某 文 件 夹 中 ， 如 D:\redis。 然 后 打开 cmd， 把 目录 指向 解压 的 Redis 目 录 。 输 入 redis-server 
redis.windows.conf， 出 现 如 图 12-2 所 示 的 效果 表示 启动 成 功 了 。 


Redis 3.0.5603 (HHB0HHHH/H> 64 bit 
Running in standalone mode 


Port: 6379 
PID: 7924 


http://redis.io 


[7924] 10 Jun 19:06:51.810 Server started, Redis version 3.60.5063 
L79241 10 Jun 19:66:51.826 = DE loaded from disk: H.H1H seconds 


[7924] 10 Jun 19:06:51.820 * The server is now ready to accept connections on po 
rt 63°79 


图 12-2 ”Redis 启 动 成 功 


将 Redis 以 Windows Service 的 方式 司 动 。 虽 然 上 一 个 步骤 司 动 了 Redis， 但 是 只 要 一 天 闭 cmd 窗 口 ，Redis 束 会 消 
失 。 所 以 要 把 Redis 设 置 成 Windows 下 的 服务 。 关 闭 刚刚 的 cmd 窗 口 ， 再 打开 一 个 新 的 cmd 窗 口 ， 进 入 Redis 目 录 ， 输 入 redis- 


server--service-install redis.windows-service.conf--loglevel verbose， 如 图 12-3 所 示 。 


Ee SHER: C:\Windows\system32\cmd.exe | 


icrosoft Windows L ER a. 6.1. 7/688 | es 
hety PTA <c> 2009 Microsoft Corporation. JFE PTA AAM]. 


C Users*Administrator-ed: 
= cd redis 


站 > wredis?redis—-server -—~service-install redis.windows-service.conf --loglevel ve 


| 


“hose 


D> \wedis?,. 


图 12-3 Windows Service 的 方式 启动 Redis 


输入 命令 之 后 没有 报错 ， 表 示 成 功 安 羔 。 打 开 Windows 中 的 “服务 ”窗口 ， 可 以 看 到 Redis 服 务 ， 如 图 12-4 所 示 。 


es HE abs Hm» an p 


A 


名 称 

C Program Compa... 
Cs Protected Storage 
© QPCore Service 
<i, Quality Windows... 
OL Redis 

©} Remote Access ... 
ch Remote Access n 
Si Remote Deskto.. 
zÈ Remote Deskto... 
FE Remote Deskto... 
ch Remote Procedu... 
TE Remote Procedu.. 
"$ Remote Registry 
4 Routing and Re... 
DE RPC Endpoint M... 
CE Secondary Logon 
TE Secure Socket T... 
Sh Security Account... 
二 Security Center 


Sit... 


S 
4 


Pt 
三 


图 12-4 “服务 窗口 


步骤 04 ”启动 Redis 服 务 。 在 刚刚 的 cmd 窗 口中 键入 redis-server--service-start， 表 示 启 动 服 务 。 如 果 出 现 Redis service 
successfully started 的 提示 ， 融 表示 服务 成 功 局 动 ， 如 图 12-5 所 示 。 


BE 管理 员 : C:\Windows\system32\cmd.exe 


Microsoft Windows ERRA 6-1.7600] 
hav PR cc) 2009 Microsoft Corporation, 


CiWeers\Administrator>d: 


DoN>rcd redis 


D:5redis>redis-server ——-service-install redis.windows-service.conf —-loglevel ve 


rbose 


D: >\redis>redis-server --seruice-start 
[5884] 16 Jun 19:13:17.613 # Redis service successfully started. 


D: *^redis>? 


图 12-5 ”启动 Redis 服 务 


我 们 还 可 以 使 用 命令 redis-server--service-stop 停 止 服务 。 如 果 想 邯 载 Redis 服 务 ， 可 以 输入 命令 redis-server--service- 


uninstall, 


SJ. ae: 


在 默认 情况 下 ， 访 问 Redis 服 务 器 是 不 需要 密码 的 ， 为 了 增加 安全 性 ， 我 们 需要 设置 Redis 服 务 器 的 访问 密码 。 这 里 设置 访问 
密码 为 redisredis。 

可 以 直接 打开 Redis 文 件 夹 中 的 redis.windows-service.conf， 在 其 中 取消 注释 requirepass， 将 该 变量 的 值 设 置 为 
redisredis， 如 图 12-6 所 示 。 


can try up 
means that you should 


requirepass redisredis 


图 12-6 设置 变量 的 值 


12.2 ”修改 Redis 配 置 


12.2.1 修改 Redis 密 码 


在 默认 情况 下 ， 访 问 Redis 服 务 器 是 不 需要 密码 的 ， 为 了 增加 安全 性 ， 我 们 需要 设置 Redis 服 务 器 的 访问 密码 。 这 里 设置 访问 
密码 为 redisredis。 

可 以 直接 打开 Redis 文 件 夹 中 的 redis.windows-service.conf， 在 其 中 取消 注释 requirepass， 将 该 变量 的 值 设 置 为 
redisredis， 如 图 12-6 所 示 。 


ma 
at 


# Warning: Since Redis is pretty fast an outside user can try up t 
# 150K passwords per second against a good box. This means that you should 
= 


# use a very strong password otherwise it will be very easy to break. 


F 


requirepass redisredis 


图 12-6 设置 变量 的 值 


12.2.2 ”让 Redis 服 务 器 被 远程 访问 


在 默认 情况 下 ，Redis 服 务 器 不 允许 远程 访问 ， 只 允许 本 机 访问 ， 所 以 需要 设置 打开 远程 访问 的 功能 ， 如 图 12-7 所 示 。 仍 然 
是 在 Redis 文 件 夹 的 redis.windows-service.conf 中 注释 bind 变 量 。 


interfaces using the "bind" configuration directive, followed by one or 


more IP addresses. 
Examples: 


bind 192. 
bind 127. 


图 12-7 注释 bind 变 量 


修改 完成 后 ， 可 以 安 试 使 用 本 机 的 IP 地 址 加 上 密码 访问 Redis 服 务 器 。 本 机 IP 地 址 可 以 通过 cmd 中 的 ipconfig 命 令 获取 。 在 
cmd 中 键入 : redis-cli-a redisredis-h 你 的 ip 地 址 -p 6379。 如 果 能 够 正常 访问 Redis 服 务 器 ， 融 代表 Redis 远 程 访问 成 功 ， 如 图 


1 2-8 所 未 。 
D:>redis>redis-cli -a redisredis -h 137.189.204.65 -p 6379 


37.189.204.65:6379> get = 
Cnil) 


137.189.204. 65:6379> get keyi 
“lala” 
137.189 2604.65 :6379> 


图 12-8 ”远程 访问 成 功 


除了 本 机 之 外 ， 还 需要 人 在 其 他 服务 器 上 安 妆 配置 好 Redis。 


12.2.3 ”使 用 Redis Desktop Manager 管 理 


类 似 于 MongoDB 的 Robomongo， 如 果 想 可 视 化 地 管理 Redis 数 据 库 ， 可 以 进入 网 
站 https://redisdesktop.com/download 下 载 Redis Desktop Manager。 安 装 和 配置 过 程 非常 简单 ， 直 接 下 载 exe 程 序 ， 可 以 
像 普 通 软 件 一 样 安装 ， 这 里 就 不 再 详细 描述 ， 界 面 如 图 12-9 所 示 。 


wl Redi Deskiop Manager 


hey search | | 2 MP Redes Desktoo Manager EA 
a i localhost 
a cusiomers 
Ex customers: 
Se customers: 
F custo mers: 
i qustomers:4 
sh customers:! 
al ems 
Sie teams: 
42 tems:2 
ee Itams:3 
Eo itams.4 
a (D orders | a |. a E | 
E ordars:1 Redis Desktop Manager 
A aes Cross-platform GUT application for managing Redis. 
Ë abt a iia za Version 0.76 Developed by - Igor Melinoyskiy 
i) dbz (0) Many thanks to Dur amazing contributors and community 
i i ai me Third Party Libs and Images: tS; Ged, libesh2, google breakpad, OtGonsole, Reds Logo 
E | L in _ 
H bs (0) 
+ dbh (0) 
f dbr (0) 
Fj dba (0) 
F db9 (0) 
H doto 
È) aot (0) 
Fy db12 (0) 
Fy db13 (0) 
Fg do14 (0) 
Fy db15 (0) H 


d Report issue © pocumentatior Follow @Radisbesktop © start 


F 


= Haage Connectons | =F Add New Connection | 


Keys loaded in: 11 ms a System careale 


图 12-9 Redis Desktop Managerji w 


12.3 ”Redis 分 布 式 肛 虫 实践 


一 般 而 言 ， 分 布 式 胞 虫 可 以 简单 分 成 两 种 类 型 的 任务 : 一 类 是 获取 待 肛 队列 ， 并 且 加 入 队列 ; 另 一 类 是 读 取 待 移 队列 ， 进 行 
新 一 轮 的 爬 取 工 作 。 这 有 点 像 第 7 章 中 使 用 Queue 和 Thread 的 多 线程 聆 虫 ， 我 们 通过 获取 代码 队列 ， 并 加 入 Queue 队 列 中 ， 然 
后 使 用 多 线程 从 队列 中 读 取 URL 地 址 ， 进 行 多 线程 聆 虫 。 


因此 ， 本 节 的 实践 环节 和 第 7 章 有 毕 类 似 ， 目 的 是 获取 访问 量 最 大 的 100 个 中 文 网 站 中 的 所 有 图 片 。 


12.3.1 ”安装 Redis 库 


首先 需要 使 用 pip 安 和 Redis 库 。 在 cmd 中 键入 pip install redis 后 按 回 车 键 ， 即 可 成 功 安 半 Redis， 如 图 12-10 所 示 。 


i m E £ = + ;一 -一 =f 
E 管理 员 : C:\Windows\system32\cmd.exe =o 


sem | 
Microsoft Windows [ARA 6.1.7600] a 
ERI PTS ey 2009 Microsoft Corporation, AR ES PAIA]. 


C:\Users‘\Administrator>pip install redis 


Requirement already satisfied: redis in c:\programdata‘\anaconda3\libssite-packag 
es 


CG: Wsers Administrator? m 


图 12-10 ”安装 Redis 库 


12.3.2 加 入 任务 队列 


首先 要 创建 一 个 遂 数 ， 用 于 获取 这 100 个 中 文 网 站 中 所 有 图 片 的 链接 地 址 ， 并 且 加 入 Redis 数 据 库 的 队列 中 。 


der Push redis COISE): 
r = Redis (host='137.189.204.65', 
port=6379 ,password='redisredis') 


print (eekeys ("=") ) 


me 
WEE Opent 'alexa.txt'; "cas Tile: 
ee 
for Cachone Im Piler lier: 
link = eachone.split('\t') [1] 
link = link.replace('\n','') 
link ist append (link) 
LE Ten lai sE == T00; 
break 


EO UE ie a E Ses 

response = requests.get(url, headers=headers, timeout=20) 
soup = BeautifulSoup(response.text, 'lxml') 
img Lest) = Zup Ea ali te amg) 
for img in img list: 

img Wied ing || Sie. | 

a Es pio Ab bad S 

print COANE url: ", img url) 


在 上 述 代码 中 ， 首 先 创 建 r= Redis(host='LOCAL HOST',port=6379,password='redisredis') 并 连接 到 Redis 服 务 器 ， 然 后 
使 用 "keys(”) 将 Redis 服 务 器 中 所 有 的 keys 都 打印 出 来 。 


接着 读 取 流量 最 大 的 100 个 网 站 地 址 。 对 于 link_list 的 每 一 个 链接 ， 通 过 requests 和 BeautifulSoup 获 取 其 中 图 片 的 链接 ， 然 
后 使 用 rIpush(img_url,img_url) 将 链接 注入 Redis 数 据 库 中 ， 最 后 r.llen(img_url) 输 出 当前 图 片 URL 的 数量 。 


12.3.3” 读 取 任务 队列 并 下 载 图 片 


接 下 来 需要 从 Redis 服 务 器 中 读 取 队列 中 的 图 片 链 接 ， 将 图 片 下 载 下 来 并 保存 在 硬盘 中 。 


在 上 述 代 码 中 ， 首 先 连 接 Redis 服 务 器 ， 然 后 使 用 url=r.lpop(img_url") 获 取 队 列 中 的 图 片 链 接 ， 接 着 使 用 while 循 环 对 每 一 


张 图 片 链接 使 用 requests 获 取 图 片 并 保 仔 下 来 。 


12.3.4 DIERRE 


下 面 是 此 次 分 布 式 爬 虫 的 代码 。 对 于 不 同 的 服务 器 ， 此 项 任务 分 成 两 类 ， 一 类 是 客户 端 ， 这 里 称 之 为 master 主 人 ， 运 行 
push_redis list 函 数 ; 另 一 类 称 乙 为 slave 奴 隶 ， 可 以 开局 任意 多 个 服务 器 ， 运 行 get img 函数 。 这 样 ， 简 单 的 分 布 式 束 构建 完成 
St. 


首先 介绍 master 的 代码 ， 将 其 保存 为 master.py: 


接着 介绍 slave 的 代码 ， 将 其 保存 为 slave.py: 


上 述 master.py 和 slave.py 的 唯一 不 同 之 处 在 于 ， 对 于 不 同 的 服务 器 ， 变 量 this_ machine 有 所 不 同 ， 也 就 决定 了 各 自 功能 区 


不 同 。 首 先 运行 master.py， 然 后 再 运行 slave.py。 


在 master.py 得 到 的 结果 是 : 


Fass TER 


[b'img_url',b'key1',b'foo'] 


加 入 的 图 片 url: 


加 入 的 图 片 url: 


//www.baidu.com/img/bd logo1.png 


//www.baidu.com/img/baidu_jgylogo3.gif 


现在 图 片 链接 的 个 数 为 629 


加 入 的 图 片 url: 


加 入 的 图 片 url: 


加 入 的 图 片 url: 


加 入 的 图 片 url: 


加 入 的 图 片 url: 


加 入 的 图 片 url: 


//mat1.gtimg.com/www/images/qq2012/sogouSearchLogo20140629.png 
http://mat1.gtimg.com/www/images/qq2012/guanjia2.png 
http://img1.gtimg.com/ninja/2/201 7/06/ninja149709145815497 jpg 
http://img1.gtimg.com/ninja/2/201 7/06/ninja14970951 7833491 jpg 
http://img1.gtimg.com/ninja/2/201 7/06/ninja1497081 18462544 jpg 


http://img1.gtimg.com/ninja/2/201 7/06/ninja149708117122501 jpg 


在 slave.py 得 到 的 结果 是 : 


Fass TER 


http://p.ssl.qhimg.com/t01929ae441 cf8c880a.jpg 


已 经 获取 图 片 http://p.ssl.qhimg.com/t01929ae441cf8c880a.jpg 
https://p2.ssl.qhimg.com/t014c97aff16988ff6b.jpg 

已 经 获取 图 片 https://p2.ssl.qhimg.com/t014c97aff16988ff6b.jpg 
http://p.ssl.qhimg.com/t016ed08e5f5e51ced7.jpg 

已 经 获取 图 片 http://p.ssl.qhimg.com/t016ed08e5f5e51ced7.jpg 
http://p.ssl.qhimg.com/t0163f563c2168e0cb4.jpg 

CARRE Ehttp://p.ssl.qhimg.com/t0163f563c2168e0cb4.jpg 
http://p.ssl.qhimg.com/t01def59e5c65c936be.jpg 

已 经 获取 图 片 http://p.ssl.qhimg.com/t01def59e5c65c936be.jpg 


打开 该 文件 夹 ， 我 们 获取 的 图 片 如 图 12-11 所 示 。 
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在 上 述 实 例 中 ， 我 们 通过 Redis 实 现 了 一 个 分 布 式 爬 虫 ， 让 其 可 以 在 不 同 服务 器 之 间 通 信 。 其 实 ， 还 可 以 在 分 布 式 聆 虫 的 各 
个 服务 器 中 使 用 多 线程 或 多 进程 聆 虫 ， 这 样 整个 爬虫 的 抓 取 速 度 和 效率 将 会 有 更 大 的 增长 。 

除 此 之 外 ， 分 布 式 胞 虫 还 有 一 个 好 处 就 是 ， 队 列 的 分 配 是 依靠 master 的 ， 当 你 获取 数据 的 某 一 台 slave 奴 隶 服 务 器 因为 各 种 
原因 停止 怜 虫 了 ， 也 不 会 让 整个 有 聆 虫 程序 停 下 来 。 这 样 ， 分 布 式 爬 虫 不 仪 可 以 在 朴 虫 效率 上 有 成 倍 的 提升 ， 还 可 以 保证 爬虫 程序 
的 稳定 性 。 


第 13 章 ”有 把 虫 实践 一 : 维基 百科 


“是 骤 子 是 马 ， 拉 出 来 多 净 ”。 我 们 已 经 将 Python 网 络 聆 虫 的 技术 系统 地 学 习 完 了 ， 后 面 几 个 章节 开始 进入 实践 环节 。 每 
一 章 都 会 使 用 之 前 学 习 的 技术 ， 通 过 实践 提升 怜 虫 的 技术 水 平 。 只 有 通过 实践 ， 才 能 真正 地 积累 知识 ， 掌 握 网 络 爬 虫 的 点 石 成 金 
Za: 
维基 百科 是 一 个 网 络 百科 全 书 ， 在 一 般 情况 下 人 允许 用 户 编辑 任何 条 目 。 当 前 维基 百科 由 非 营 利 组 织 维基 媒体 基金 会 负责 营 
。 维 基 百 科 一 词 是 由 网 站 核心 技术 Wiki 和 具有 百科 全 书 之 意 的 encyclopedia 共 同 创造 出 来 的 新 混合 词 Wikipedia。 


El 


本 章 将 给 出 一 个 肛 取 维基 百科 的 实践 项 目 ， 所 米 用 的 候 虫 技术 包括 以 下 4 种 。 
JERR: HARA 

- 解析 网 页 : 正则 表达 式 

- 存储 数据 : 存储 至 txt 


` 进 阶 新 技术 : RARA BIRR, TARAN S RAE 


13.1 IME ta 


13.1.1 项 目 目标 


本 项 目的 目标 是 乳 取 维基 百科 上 的 词 条 链接 。 维 基 百 科 上 的 英文 间 条 文章 数 约 有 537 万 ， 所 有 语言 的 词 条 文章 数 超过 了 4100 
万 ,数量 十 分 庞大 。 作 为 网 络 胞 虫 练 手 的 项 目 ， 并 不 需要 把 维基 百科 上 所 有 的 词 条 链接 息 下 来 ， 本 次 的 候 虫 深度 设置 为 两 层 。 如 
果 大 家 想 爬 更 多 的 链接 ， 可 以 自行 调整 爬虫 深度 。 


由 于 维基 百科 为 非 赢利 的 机 构 ， 其 运 吕 完全 靠 公 众 的 捐助 。 因 此 ， 在 运行 爬虫 的 时 候 ， 注 意 不 要 过 快 、 过 频密 地 疏 取 维基 百 
科 网 页 ， 以 免 对 服务 器 产生 大 量 负 傈 。 另 


七 可 以 持续 、 免 费 地 提供 知识 给 人 们 。 


13.1 MEHIA 


13.1.1 项 目 目标 


本 项 目的 目标 是 爬 取 维基 百科 上 的 词 条 链接 。 维 基 百 科 上 的 观 文 词 条 文章 数 约 有 537 万 ， 所 有 语言 的 词 条 文章 数 超过 了 4100 
万 ,数量 十 分 庞大 。 作 为 网 络 胞 虫 练 手 的 项 目 ， 并 不 需要 把 维基 百科 上 所 有 的 词 条 链接 息 下 来 ， 本 次 的 有 候 虫 深度 设置 为 两 层 。 如 
果 大 家 想 爬 更 多 的 链接 ， 可 以 自行 调整 爬虫 深度 。 


由 于 维基 百科 为 非 赢 利 的 机 构 ， 其 运营 完全 靠 公 众 的 捐助 。 因 此 ， 在 运行 胞 虫 的 时 候 ， 注 意 不 要 过 快 、 过 频密 地 有 把 取 维 基 百 
科 网 页 ， 以 免 对 服务 器 产生 大 量 负 和 荷 。 另 外 ， 如 果 可 以 ， 单 击 维基 百科 的 Donate to Wikipedia， 捐 助 一 些 资金 给 维基 百科 ， 让 
它 可 以 持续 、 免 费 地 提供 知识 给 人 们 。 


13.1.2 MEHRA 


如 果 需 要 拒 取 一 个 网 站 上 的 所 有 链接 ， 采 取 什么 方法 比较 好 呢 ? 可 以 找到 该 网 站 上 的 一 个 网 页 ， 如 主页 ， 获 取 主 页 的 内 容 ， 
分 析 网 页 内 容 并 找到 主页 上 所 有 的 本 站 链接 ， 然 后 扑 取 刚刚 获得 的 链接 ， 再 分 析 这 些 链接 上 的 网 页 内 容 ， 找 到 上 面 所 有 的 本 站 链 
接 ， 并 不 断 重 复 ， 直 到 没有 新 的 链接 为 止 ， 如 图 13-1 所 示 。 
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图 13-1 网 站 链接 


以 维基 百科 为 例 ， 我 们 可 以 先 礁 取 词 条 为 Wikipedia 的 网 页 ， 获 取 访 网 页 的 所 有 词 条 链接 ， 如 Wikipedia 中 的 online 
encyclopedia， 此 时 有 息 虫 深度 为 1。 接 下 来 ， 可 以 候 取 新 获取 的 词 条 链接 的 网 页 ， 获 取 其 中 的 所 有 词 条 链接 ， 如 online 
encyclopedia 中 的 encyclopedia， 此 时 有 息 虫 深度 为 2。 之 后 ， 再 次 肛 取 最 新 获取 的 词 条 链接 的 网 页 ， 获 取 其 中 的 所 有 词 条 链接 ， 


如 获取 encyclopedia 中 的 dictionaries， 此 时 有 拒 虫 深度 为 3。 由 于 拒 虫 深度 为 3 的 时 候 肛 取 的 词 条 数目 已 经 在 300 万 以 上 ， 因 此 本 
次 爬虫 仪 设置 深度 为 2。 

图 13-1 使 用 了 树 状 图 来 表述 怜 取 链 接 的 情况 ， 我 们 可 以 明显 地 看 到 一 条 一 条 的 疏 虫 路 径 。 如 果 把 每 一 层 的 首尾 相连 ， 用 网 
状 图 来 表示 结构 ， 束 可 以 画 出 如 图 13-2 所 示 的 “ 师 蛛 网 图 ”。 


Wikipedia 


Reference | 
work 


“-.Wikimedia \--* 
oundation 


图 13-2 ”网 状 图 结构 


想必 看 到 图 13-2， 大 家 很 容易 束 能 明日 为 什么 胞 取 网 络 上 的 信息 叫做 网 络 胞 虫 (Web Crawler) 或 网 络 师 蛛 (Web 
Spider) 了 。 如 果 我 们 把 整个 互联 网 比喻 成 一 个 蜂 蛛 网 ， 那 么 网 络 肛 虫 束 是 在 网 上 有 抱 来 胞 去 的 师 蛛 。 网 络 蜂 蛛 是 通过 网 页 的 链接 
地 址 寻找 网 页 的 ， 从 网 站 某 一 个 页 面 (通常 是 首页 ) 开始 读 取 网 页 的 内 容 ， 找 到 在 网 页 中 的 其 他 链接 地 址 ， 然 后 通过 这 些 链接 地 
址 寻找 下 一 个 网 页 ， 这 样 一 直 循 环 下 去 ， 直 到 把 这 个 网 站 所 有 的 网 页 都 抓 取 完 为 止 。 如 果 把 整个 互联 网 当成 一 个 网 站 ， 那 么 网 络 
旺 蛛 残 可 以 用 这 个 原理 把 互联 网 上 所 有 的 网 页 都 抓 取 下 来 。 


13.2 ”网 站 分 析 


这 次 维基 百科 有 拒 虫 的 首页 是 https://en.wikipedia.org/wiki/Wikipedia， 也 就 是 Wikipedia 词 条 的 页 面 ， 如 图 13-4 所 示 。 
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图 13-4 ”Wikipedia 词 条 的 页 面 


首先 ， 可 以 用 Chrome 浏 哆 器 的 检查 (审查 元 素 ) 功能 分 析 词 条 链接 的 特点 ， 如 图 13-5 所 示 。 


ca href="/wiki/Online encyclopedia” title="Online encyclopedia">online encyclopedia<,/a: 
" that aims to allow anyone to edit articles." 


Pp <sup id="cite_ref-6" class="reference">..</sup 
" Wikipedia is the largest and most popular general " 


p 


ca href="/wiki/Reference work” title="Reference work" >reference work</a 


图 13-5 分析 词 条 链接 的 特点 


我 们 可 以 写 一 段 简单 的 代码 取出 本 页 面 的 所 有 链接 ， 帮 助 分 析 真 正 词 条 链接 的 特点 ， 代 码 如 下 : 


导 到 的 结果 是 该 页 面 的 所 有 链接 : 


/wiki/Wikipedia:Protection_policy#semi 
#mw-head 

#p-search 

/wiki/Main Page 
/wiki/Wikipedia:About 
/wiki/Wikipedia_ (disambiguation) 
/wiki/File:Wikipedia-logo-v2.svg 
/wiki/File:Wikipedia_wordmark.svg 


http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/16542/OEBPS/Text/... 


可 以 看 到 ， 提 取 的 URL 有 一 些 是 重复 的 ， 还 有 一 些 URL 是 我 们 不 需要 的 ， 比 如 侧 边 栏 、 页 眉 、 页 脚 、 文 章 引 用 的 链接 等 。 通 
过 分 析 ， 可 以 友 现 所 有 词 条 的 链接 有 两 个 特点 : 


7 


(1) URL 链 接 是 以 /wiki 开头 的 相对 路 径 。 
(2) URL 链 接 不 包括 冒号 、# =、<、>。 


我 们 可 以 直接 用 正则 表达 陈 从 网 页 HTML 代 码 中 提取 需要 的 词 条 链接 ， 正 则 表达 陈 为 <a href="/wiki/([*:#= < >]*?)".*? 


</a>, 


13.3 MESE: FRE TCH IAM 


首先 ， 使 用 深度 优先 的 胞 虫 获 取 所 有 的 词 条 链接 ， 谍 虫 深度 为 2， 代 码 如 下 : 


f.write (output) 
£f.close() 
= 


scrappy (eachone, depth+1l) 


scrappy ("Wikipedia") 
time2 = time.time() 


print (Total time", en 


在 上 述 代码 中 ，exist_url 是 一 个 列表 ， 用 于 存放 已 经 爬 取 的 网 页 。scrappy(urdepth =1) 为 爬虫 的 函数 ， 在 获取 页 面 的 html 
源 代码 后 ， 可 以 使 用 正则 表达 式 提 取 所 有 的 词 条 链接 ( 即 link_list) , ##HBAAlist(set(link_list)-set(exist_url) At ARE GAMER 
的 链接 和 重复 的 链接 ， 得 到 unique list, 


每 一 个 新 获取 的 链接 都 有 要 先 保存 到 TXT 文 件 中 ， 下 使 用 递归 遂 数 调用 。 也 就 是 说 ， 在 scrappy 遂 数 中 调用 递归 scrappy 访 问 
一 条 没有 访问 过 的 词 条 链接 ， 直 到 深度 大 于 或 等 于 2 为 止 。 


我 们 可 以 在 title.txt 中 得 看 顺利 获取 的 数据 ， 如 图 13-6 所 示 。 


~ | title.txt - 记事 本 


Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 
Depth: 


Classical Chinese Wikipedia 一 > 
Classical Chinese Wikipedia 一 > 
Classical Chinese Wikipedia 一 
Classical Chinese Wikipedia -> 
Classical Chinese Wikipedia -> 
Classical Chinese Wikipedia -> 
Classical _Chinese_Wikipedia -> 
Classical Chinese Wikipedia 一 > 
Classical Chinese Wikipedia 一 > 
Classical _Chinese Wikipedia 一 > 
Classical Chinese Wikipedia -> 
Classical Chinese Wikipedia -> 
Classical Chinese Wikipedia -> 
Classical Chinese Wikipedia -> 
Classical Chinese Wikipedia 一 > 
Classical Chinese Wikipedia 一 > 
Classical_Chinese Wikipedia 一 > 
Classical _Chinese Wikipedia 一 > 
Classical Chinese Wikipedia -> 
Classical Chinese Wikipedia -> 
Classical Chinese Wikipedia -> 
Classical Chinese Wikipedia 一 > 
Classical Chinese Wikipedia 一 > 
Classical _Chinese_ Wikipedia 一 > 
Classical Chinese Wikipedia 一 > 


图 13-6 ”查看 获取 的 数据 


最 终 获 取 的 URL 数 量 为 172864 个 ， 花 费 的 时 间 为 1957.4 秒 。 


Haitian Creole Wikipedia 
Sundanese Wikipedia 
samogitian Wikipedia 
Catalan Wikipedia 
Tally_stick 

Aragonese Wikipedia 
Jamaican_Patois_ Wikipedia 
Calendar 

Cantonese Wikipedia 
Cebuano Wikipedia 
Assamese Wikipedia 
Persian Wikipedia 
Chechen Wikipedia 
standard Chinese 

List of Wikipedias 
Bulgarian Wikipedia 
ETYa 

Nin Nan Wikipedia 
Northern_Sami_Wikipedia 
Arabic Wikipedia 
Ukrainian Wikipedia 
Xhosa Wikipedia 
Malayalam Wikipedia 
Sicilian Wikipedia 
Serbo-Croatian Wikipedia 


13.4 MEHN: 广度 优先 的 多 线程 胞 虫 


从 基于 深度 优先 的 递归 有 候 虫 可 以 了 解 深度 优先 算法 的 特点 。 但 是 由 于 其 还 是 串 行 的 的 虫 ， 速 度 难免 比较 慢 。 当 把 深度 加 到 3 
时 ， 笔 者 试 过 把 了 10 个 小 时 左右 才 肛 取 了 170 万 个 词 条 链接 。 因 此 ， 如 果 需 要 加 快 和 他 虫 速度 ， 可 以 尝试 多 线程 肛 虫 。 


多 线程 胞 虫 用 深度 优先 算法 不 太 万 便 ， 因 为 深度 优先 算法 的 链接 是 一 个 一 个 获取 的 ， 在 获取 之 前 并 不 知道 下 一 个 页 面 有 多 少 
链接 ， 调 用 多 线程 的 队列 并 不 能 市 来 太 多 的 好 处 。 

多 线程 胞 虫 配合 广度 优先 算法 正好 。 广 度 优先 的 刀 历 算法 以 层 为 顺序 ， 将 某 一 层 上 的 所 有 节操 都 搜索 到了 之 后 才 向 下 一 层 搜 
索 ， 可 以 有 大 量词 条 链接 放 入 多 线程 乳 虫 的 队列 中 。 


以 下 是 广度 优先 的 多 线程 候 虫 的 代码 ， 此 处 代码 很 长 ， 请 耐心 阅读 体会 。 


上 述 代码 首先 定义 了 Crawler 类 ， 其 参数 ur| 是 爬虫 的 初始 词 条 ，threadnum 代 表 线 程 数 ， 然 后 调用 Crawler 类 中 的 craw 了 


在 Crawler 类 的 craw 函 数 中 ， 首 先 定义 depth 深 度 为 1， 然 后 将 url 加 入 g queueURL 等 待 怜 取 的 url 链 接 列 表 中 。 接 着 进入 循 
环 ， 当 depth 小 于 3 时 ， 先 用 self.downloadAll(0) 函 数 使 用 多 线程 下 载 g_queueURL 中 所 有 页 面 的 词 条 链接 ， 当 完成 某 一 层 深度 所 


有 书 点 的 息 取 后 ， 使 用 self.updateQueueURLO 将 新 下 载 的 所 有 词 条 链接 加 入 g_queueURL 中 (除去 重复 的 和 新 下 载 的 ) 。 


在 downloadAllI0 函 数 中 ， 有 URL 可 以 怜 虫 的 时 候 ， 其 中 代码 的 循环 会 不 断 创建 线程 ， 直 到 达到 线程 数 的 最 大 值 或 怜 取 了 
g_gqueueURL 中 所 有 的 链接 为 止 。 


假设 g_queueURL 中 有 10 个 URL， 线 程 的 最 大 值 为 5。 程 序 在 循环 中 会 一 个 一 个 地 开启 线程 ， 直 到 开局 5 个 线程 为 止 ， 每 个 
线程 用 来 肛 取 g_queueURL 中 的 一 个 链接 。 这 5 个 线程 会 调用 download() 水 数 ，download() 消 数 会 调用 
CrawlerThread(threading.Thread) 来 抱 取 g queueURL 中 某 一 个 词 条 网 页 的 所 有 链接 。 


当 线 程 1 完 成 后 ， 它 会 从 g_queueURL 提 取 第 6 个 URL 拒 取 ; 线程 2~5 完 成 后 也 会 如 此 。 当 某 线程 完成 下 载 后 ， 若 友 现 胞 取 队 
列 为 空 ， 则 该 线程 会 退出 。 


这 样 便 完成 了 某 一 层 深 度 的 爬虫 ，g_ existURL 会 保存 爬 取 过 的 链接 ，g pages 会 保存 刚刚 讨 过 网 页 的 html 源 代码 ， 我 们 需 
要 从 中 找到 所 有 的 词 条 链接 ， 用 来 开始 新 一 层 深 度 的 爬虫 。 


在 updateQueueURLO 函 数 中 ， 我 们 会 从 g_pages 中 获取 所 有 的 词 条 链接 ， 然 后 使 用 g_queueURL=list(set(newUrlList)- 
set(g_existURL)) 去 除 重 复 和 已 经 爬 取 过 的 链接 ， 这 融 是 更 新 过 后 的 g9_queueURL 等 待 怜 取 的 URL 链 接 列 表 。 


完成 之 后 ， 将 深度 depth 加 1， 人 然后 在 循环 中 疏 取 更 深 一 层 的 词 条 链接 ， 直 到 等 于 最 大 深度 为 止 。 


我 们 可 以 在 title2.txt 中 查看 顺利 获取 的 数据 ， 如 图 13-7 所 示 。 


"PH tile2txt - 记事 本 
| SHEF GSE) 格式 (O) SB) 帮助 (H) 


Thread0 
Thread0 
Threadd 
Thread0 
Threadů 
Thread 
Thread 
Thread 
Thread 
Thread 
Thread 
Thread 
Thread 
Thread 
Thread 
Thread 
Thread0 
Thread 
Thread 
Thread 
Thread0 
Thread 
Thread 
Thread 
Thread 
Thread 


Wikipedia--Viktoria Institute 
Wikipedia-—>List of wikis 
Wikipedia—>List of Wikipedias 

Wikipedia—-Web crawler 
Wikipedia—>Paul Kennedy (host) 
Wikipedia--American and British English spelling differences 
Wikipedia-?Lila Tretikov 

Wikipedia--One Hundred Year Study on Artificial Intelligence 
Wikipedia->Library reference desk 
Wikipedia—>DBpedia 

Wikipedia--Wiki software 
Wikipedia->Procrastination 
Wikipedia-?DuckDuckGo 

Wikipedia--Susning. nu 

Wikipedia-?>Integrated Authority File 
Wikipedia->Belarusian Wikipedia 
Wikipedia—-Besans Sha on 
Wikipedia--Wikiversity 

Wikipedia--Virtual_ International Authority File 
Wikipedia--Wikli_ markup 

Wikipedia-?Linux 

Wikipedia-?Polish Wikipedia 

Wikipedia—>Florida 
Wikipedia—>GNE_(encyclopedia) 

Wikipedia—? JSTOR 

Wikipedia—-?-American_ Broadcasting Company 


图 13-7 查看 获取 的 数据 


最 终 获取 的 URL 数 量 为 190522 个 ， 花 费 的 时 间 为 680 秒 。 


可 以 看 到 ， 基 于 深度 优先 的 递归 爬虫 大 概 化 费 1957 秒 ， 是 多 续 程 玲 虫 的 3 俐 左右 。 这 里 仅仅 经 过 了 一 次 测试 ， 虽 然 使 用 的 是 


同一 网 络 ， 但 是 时 间 间 隔 为 一 天 左右 ,不能 进行 很 精准 的 比较 。 多 线程 他 虫 确实 能 加 快 和 他 虫 效率 ， 如 果 线 程 开 得 更 多 ， 相 信和 肛 虫 
的 效率 会 更 高 。 


13.5 Bae 


通过 本 章 的 学 习 ， 相 信 读 者 已 经 能 够 灵活 地 利用 基础 的 爬虫 知识 获取 维基 百科 的 链接 了 。 另 外 ， 读 者 应 该 对 基于 深度 和 广度 
的 胞 虫 已 经 有 所 了 解 。 如 果 还 想 挑战 一 下 自己， 可 以 尝试 将 获取 深度 加 大 到 第 3 层 ， 看 看 最 短 在 多 少 秒 之 内 能 够 完成 前 3 层 的 乳 
R, 


第 14 草 MEER: 知 乎 Live 


知 乎 是 中 文 互联 网 一 个 非常 大 的 知识 社交 平台 。 在 知 乎 上 ， 用 户 可 以 通过 问答 等 交流 万 式 获 取 知 识 。 区 别 于 百度 知道 等 问答 
网 站 ， 知 乎 的 回答 往往 非 党 深入， 都 是 回答 者 精心 写 的 ， 知 平 上 聚集 了 中 国 互 联网 科技、 商业 、 文 化 等 领域 里 最 具 创 造 力 的 人 
群 ， 将 高 质量 的 内 容 通 过 人 的 节点 形成 规模 的 生产 和 分 享 ， 构 建 高 价值 人 际 关系 网 络 。 


本 草 为 拒 取 知 乎 网 站 的 实践 项 目 ， 所 采用 的 息 虫 技术 包括 以 下 3 种 。 
EFL: 解析 AJAX 动 态 加 载 地 址 
“ 解析 网 页 : 提取 JSON 数 据 


- 存储 数据 : 存储 至 MongoDB 数 据 库 


14.1 IME ta 


本 项 目的 目标 是 爬 取 知 和平 Live 的 所 有 实时 语音 分 享 以 及 知 平 Live 的 听众 。 知 乎 Live 的 URL 地 址 
为 https://www.zhihu.com/lives， 如 图 14-1 所 示 。 


14.2 ”网 站 分 析 


改变 自己 的 心理 学 课 


FE: 动机 在 杭州 
LiNe 课程 


地基 础 如 何 一 年 考 过 CPA 入门 


Æ, rucdayan 


旅行 街头 摄影 和 | 自拍 | 
amid 


文案 从 入 行 到 精通 的 进 阶 之 路 


BER 


如 何 打造 一 个 十 亿美 元 的 创业 公司 ? 


Steven Hoffman 


SSE : HR 视角 看 简历 与 招聘 


图 14-1 4n-fLive 


知 乎 Live 是 什么 ?了 


HFE Live 吓 知 平 推出 的 实时 证 言 问答 产品 。 主 
讲 人 对 亲 个 主题 分 享 知识 、 经 验 成 见解 ， 听 从 
可 以 堪 时 许 问 和 并 获 行 镶 各。 让 从 MEE ARR 


收获 与 交流 . 


SIF Live 公众 号 


© 全 潜 高 效 的 收获 与 交流 
* PHRES Aha 


o go) 
oes KERE: 


“PS App 
控 佳 友好 便 挂 的 Live 体验 


打开 知 乎 Live 的 官方 网 站 主页 后 ， 我 们 友 现 它 一 次 只 会 加 载 10 个 Live， 并 且 加 载 的 方式 不 是 翻 页 
部 ， 这 对 获取 新 加 载 的 live 数 据 市 来 了 困难 。 不 过 不 用 担心 ， 前 面 草书 的 学 习 为 放 
用 Chrome 浏 多 器 的 “检查 ”功能 解析 AJAX 动 态 加 载 地 址 ， 进 而 找到 加 载 的 数据 。 


页 ， 而 是 将 页 
卖 者 市 来 了 诸多 解决 方法 ， 


面 消 动 到 最 底 
这 里 用 到 的 方法 是 使 


打开 Chrome 浏 览 器 的 “检查 ”功能 ， 单 击 Network， 当 滑动 到 页 面 最 底部 时 ， 加 载 新 的 Live。Network 下 方 会 出 现 新 加 载 
的 内 容 ， 如 图 14-2 所 示 。 
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ag FEAH 


Element: ces Metwork Timeline Profiles: Applicaton  Secunty Audits Adblock Plus 


加 Preserve log E Disable cache | @ Offline No throttiing T 


E Hide date URLs E) ZAR JS CSS Img Media Font Dor WS Manifest Other 


xX | Headers Preview Response Cockies Timing 
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Request URL: https: 
Request Method: GET 
Status Code: @ 299 CE 
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ffapi. zhihu. com; lives/ home feed’ limit=lġåoffset-14904567058inciudes=live 


TBe_mypg 


Y Response Headers view! Source 
Access-Control-Allow-Credentiak: true 
Accss-Lontrol-Allow-Headers; Authorization, Content-Type, £-APT-Version 
Access: Control-Allow- Methods: GET,PATCH, PUT, POST, DELETE, OPTIONS 
Access-Control-Allow-Origin: https: fw. Zhniny con 
Connection: keep-alive 
Content-Encoding: grip 
Content-Type: application json; charset=-utf-8 
Date: Thu, 38 Mar 2607 15:11:11 GAT 
Etag: W/"cfadceseesldd4cl fs 2609 leer léelrllsentead" 

= Server: IWS 


Transter-Emcoding: chunked 


aquerts | GOKE ù 


rantfered 


图 14-2 ”加 载 的 内 容 


可 以 友 现 ，Live 加 载 的 新 数据 是 请 求 了 https://api.zhihu.com/lives/homefeed? 
limit=10&offset=1490458785&includes=live 这 个 网 页 的 json 数 据 。 单 击 Preview， 可 以 看 到 json 数 据 的 结构 ， 如 图 14-3 所 
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“member”, ...} 
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"member" ...} 
"hot_live" 
"hot_live" 
"hot_live" 
"hot_live" 
“member”, ...} 
"member" ...} 
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"member",..}, {object_type: " 


有 


ive", source_type: “hot_live",..},.] 


://api.zhihu.com/lives/homefeed?limit=10&0ffset=1490070600", previous: "" 


图 14-3 ”json 数 据 的 结构 


其 中 ，data 是 每 一 个 新 加 载 Live 的 数据 ; paging 可 以 知道 该 页 是 否 是 最 后 一 页 ， 以 及 下 一 页 的 链接 。 如 果 paging 的 is_ end 
变 成 了 true， 束 代表 最 后 一 页 ， 这 样 我 们 束 可 以 顺 着 paging 提 供 的 信息 知道 之 后 应 该 息 哪 一 页 ， 什 么 时 候 应 该 停止 人 虫 了 。 


在 获取 所 有 Live 的 信息 


oe. 


之 后 ， 还 要 根据 Live 的 id 获取 每 个 Live 的 听众 和 资料。 我 们 可 以 随便 单 击 一 个 Live， 进 入 Live 的 页 面 后 ， 
打开 Chrome 的 审查 元 素 ， 然 后 单 击 “XX 人 参与 ”， 如 图 14-4 所 示 。 
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图 14-4 Chrome 的 审查 元 素 


在 进入 参与 的 听众 页 面 后 ， 当 清 动 到 页 面 最 辰 部 时 ， 加 载 新 的 听众 。Network 下 方 会 出 现 新 加 载 的 内 容 ， 如 图 14-5 所 示 。 
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|_| mem bers?lmit= 10&offset=50 Access-Control-Request-Method: GET 
门 members?limit=10&offset=60 Lor tone. ee pen ue 
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(KHTML, Ilke Gecko) Chrome /57.0.2987.98 Safari/537.36 
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limit: 18 
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图 14-5 ”新 加 载 的 内 容 


可 以 友 现 ，Live 加 载 的 新 数据 是 请 求 了 https://api.zhihu.com/lives/847817806807453696/members? 
limit=10&offset=10， 修 改 offset 便 可 以 获得 新 的 听众 数据 。 


14.3 MEENE 


将 


14.3.1 获取 所 有 Live 


首先 ， 尝 试 候 取 Live 的 第 一 页 ， 解 析 AJAX 动 态 加 载 地 址 ， 知 道 第 一 页 的 地 址 为 https://api.zhihu.com/lives/homefeed? 
includes=live。 下 面 是 向 单 的 爬虫 代码 : 


输出 结果 为 : 


这 一 段 unicode 的 message 意 思 是 : 未 设置 验证 方式 。 


也 就 是 说 ， 本 次 胞 虫 的 请 求 头 header 中 还 缺 了 东西 ， 没 有 把 验证 方式 加 进去 ， 于 是 需要 继续 通过 Chrome 浏 兄 器 的 “ 检 


A" 功能 找到 请 求 的 header， 如 图 14-6 所 示 。 


Request Headers view source 

accept: application/json, text/plain, */* 

Accept-Encoding: gzip, deflate, sdch, br 

Accept-Language: en-US, en;q=@.8,zh-CN; q=@.6,zh;q=0.4, zh-TW;q=0.2 

authorization: oauth 8274ffb553d5lle6a7fdacbc328e205d 

Connection: keep-alive 

Cookie: aliyungf_tc=AQAAABMzA2 3MdgcAHTEMtwGEINsc+eaB; 1_n_c=1; q_cl=€46aa39c0e65474bD999e97¥c4dc 2468 | 1490888895000 / 14908% 

WI1MmE 1NjUGODQ3NGU4NWI KNj IKODI1ODExMjk 2NWY= | 1498888895 | c13f3cd3ab26d211a4710ad7afdf6251dede86de"; cap_id="MWQIZTF1YZA 

20GY@ZWM= | 1490888895 | d43b221dc4915e292da3e9a943835a440ab3b6ac"; 1_cap_id="NOQONDkxZDkINzI4NDY4NWEZZWEONWE INGI 3YZIxNGE=| 1 

dd175994accc1f4057d2028ad09d1"; _zap=90bd6c02-4b59-401b-93cb-2e745c5e5076; n_c=1; __utma=155987696. 1937246316 .149088889 

1.1; __utmb=155987696.0.10.1490888891; __utmc=155987696; __utmz=155987696 . 14990888891 .1.1.utmcsr=(direct) |utmccn=(direct 

Host: api. zhihu.com 

If-None-Match: W/"57a0365276da72df73ac54ec90adf5349511fa1l4" 

Origin: https ://www.zhihu. com 

Referer: https: //www.zhihu.com/lives 

User-Agent: Mozilla/5.@ (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.@.2987.98 Safari/537.36 
bi-version: 3.0.46 


图 14-6 ”找到 请 求 的 header 


因此 ， 要 在 header 中 加 上 authorization、Host、Origin 和 Referrer 参 数 ， 这 样 请 求 才 能 够 完成 ， 代 码 如 下 : 


这 次 的 输出 结果 是 我 们 需要 的 Live 数 据 : 


{"paging": {"is_ end": false, "next": "https://api.zhihu.com/lives/homefeed?limit=10&offset= 
1490443200", "previous": ""}, "data": [ {"object_type": "live", 


"action": "new_hot_live", "source_id": 0, "id": "live827121170288631808"}]} 


除了 第 一 页 ， 我 们 还 需要 获取 其 他 页 的 Live 信 息 。 首 先 尝 试看 看 能 舍 从 这 个 son 中 抽出 需要 的 数据 ， 包 括 下 一 页 的 链接 ， 以 


及 是 否 为 最 后 一 页 。 


运行 上 述 代码 ， 得 到 的 结果 是 : 


https://api.zhihu.com/lives/homefeed?limit=10&offset=1494594000 
False 


这 表示 了 下 一 页 的 地 址 ， 以 及 并 不 是 最 后 一 页 。 


接 下 来 需要 完成 两 个 任务 : (1) 使 用 循环 获取 所 有 Live 的 数据 ， 到 最 后 一 页 的 时 候 停止 获取 ; (2) 将 数据 存储 到 
MongoDB 中 。 下 面 是 完成 这 两 个 任务 的 代码 。 


在 上 面 的 代码 中 ， 我 们 使 用 了 一 个 while 循 环 ， 保 证 不 是 最 后 一 页 的 时 候 继续 爬 取 下 一 页 。 在 循环 中 ， 将 得 到 的 json 数 据 直 
接 插 入 (insert one) MongoDB 的 集合 中 。 


这 样 的 好 处 是 ， 不 用 解析 json 数 据 即 可 直接 保存 到 MongoDB 中 ， 省 时 省 力 。 运 行 完 成 后 ， 打 开 Robomongo， 查 看 到 的 结 
果 如 图 14-7 所 示 。 
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图 14-7 查看 结果 


如 果 你 还 没有 安装 Robomongo， 建 议 安 装 一 下 。 这 是 一 个 MongoDB 的 可 视 化 工具 ， 能 够 非常 清晰 、 明 日 地 展示 
MongoDB 的 数据 库 情 况 。 
14.3 ”项 目 实施 


14.3.1 获取 所 有 Live 


首先 ， 尝 试 候 取 Live 的 第 一 页 ， 解 析 AJAX 动 态 加 载 地 址 ， 知 道 第 一 页 的 地 址 为 https://api.zhihu.com/lives/homefeed? 
includes=live。 下 面 是 简单 的 爬虫 代码 : 


输出 结果 为 : 


这 一 段 unicode 的 message 意 思 是 : 未 设置 验证 方式 。 


也 就 是 说 ， 本 次 胞 虫 的 请 求 头 header 中 还 缺 了 东西 ， 没 有 把 验证 方式 加 进去 ， 于 是 需要 继续 通过 Chrome 浏 兄 器 的 “ 检 


A" 功能 找到 请 求 的 header， 如 图 14-6 所 示 。 


Request Headers view source 

accept: application/json, text/plain, */* 

Accept-Encoding: gzip, deflate, sdch, br 

Accept-Language: en-US, en;q=@.8,zh-CN; q=@.6,zh;q=0.4, zh-TW;q=0.2 

authorization: oauth 8274ffb553d5lle6a7fdacbc328e205d 

Connection: keep-alive 

Cookie: aliyungf_tc=AQAAABMzA2 3MdgcAHTEMtwGEINsc+eaB; 1_n_c=1; q_cl=€46aa39c0e65474bD999e97¥c4dc 2468 | 1490888895000 / 14908% 

WI1MmE 1NjUGODQ3NGU4NWI KNj IKODI1ODExMjk 2NWY= | 1498888895 | c13f3cd3ab26d211a4710ad7afdf6251dede86de"; cap_id="MWQIZTF1YZA 

20GY@ZWM= | 1490888895 | d43b221dc4915e292da3e9a943835a440ab3b6ac"; 1_cap_id="NOQONDkxZDkINzI4NDY4NWEZZWEONWE INGI 3YZIxNGE=| 1 

dd175994accc1f4057d2028ad09d1"; _zap=90bd6c02-4b59-401b-93cb-2e745c5e5076; n_c=1; __utma=155987696. 1937246316 .149088889 

1.1; __utmb=155987696.0.10.1490888891; __utmc=155987696; __utmz=155987696 . 14990888891 .1.1.utmcsr=(direct) |utmccn=(direct 

Host: api. zhihu.com 

If-None-Match: W/"57a0365276da72df73ac54ec90adf5349511fa1l4" 

Origin: https ://www.zhihu. com 

Referer: https: //www.zhihu.com/lives 

User-Agent: Mozilla/5.@ (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.@.2987.98 Safari/537.36 
bi-version: 3.0.46 


图 14-6 ”找到 请 求 的 header 


因此 ， 要 在 header 中 加 上 authorization、Host、Origin 和 Referrer 参 数 ， 这 样 请 求 才 能 够 完成 ， 代 码 如 下 : 


这 次 的 输出 结果 是 我 们 需要 的 Live 数 据 : 


{"paging": {"is_ end": false, "next": "https://api.zhihu.com/lives/homefeed?limit=10&offset= 
1490443200", "previous": ""}, "data": [ {"object_type": "live", 


"action": "new_hot_live", "source_id": 0, "id": "live827121170288631808"}]} 


除了 第 一 页 ， 我 们 还 需要 获取 其 他 页 的 Live 信 息 。 首 先 尝 试看 看 能 舍 从 这 个 son 中 抽出 需要 的 数据 ， 包 括 下 一 页 的 链接 ， 以 


及 是 否 为 最 后 一 页 。 


运行 上 述 代码 ， 得 到 的 结果 是 : 


https://api.zhihu.com/lives/homefeed?limit=10&offset=1494594000 
False 


这 表示 了 下 一 页 的 地 址 ， 以 及 并 不 是 最 后 一 页 。 


接 下 来 需要 完成 两 个 任务 : (1) 使 用 循环 获取 所 有 Live 的 数据 ， 到 最 后 一 页 的 时 候 停止 获取 ; (2) 将 数据 存储 到 
MongoDB 中 。 下 面 是 完成 这 两 个 任务 的 代码 。 


在 上 面 的 代码 中 ， 我 们 使 用 了 一 个 while 循 环 ， 保 证 不 是 最 后 一 页 的 时 候 继续 爬 取 下 一 页 。 在 循环 中 ， 将 得 到 的 json 数 据 直 
接 插 入 (insert one) MongoDB 的 集合 中 。 


这 样 的 好 处 是 ， 不 用 解析 json 数 据 即 可 直接 保存 到 MongoDB 中 ， 省 时 省 力 。 运 行 完 成 后 ， 打 开 Robomongo， 查 看 到 的 结 
果 如 图 14-7 所 示 。 
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图 14-7 查看 结果 


如 果 你 还 没有 安装 Robomongo， 建 议 安 装 一 下 。 这 是 一 个 MongoDB 的 可 视 化 工具 ， 能 够 非常 清晰 、 明 日 地 展示 
MongoDB 的 数据 库 情 况 。 


14.4 


LONS 


p4 ot 


A 


本 草 对 使 用 AJAX 动 态 解析 地 址 解析 JSON 数 据 和 MongoDB 的 存储 进行 了 实践 。 如 果 你 想 进 一 步 挑战 目 己 ， 可 以 尝试 在 肛 取 
听众 的 时 候 使 用 多 线程 或 多 进程 候 虫 ， 从 而 加 快 息 虫 速度 ; 还 可 以 痊 试 通过 获取 的 听众 知 乎 id 获取 听众 更 多 的 数据 。 不 过 这 些 网 
SNE RIMM BEA ESS AR. 


515% ehee=: 百度 地 图 API 


款 网 络 地 图 搜索 服务 。 在 百度 地 图 里 ， 用 户 可 以 查询 街道 、 商 场 、 楼 盘 的 地 理 位 置 ， 也 可 以 找到 离 你 最 近 的 餐 


、 公 园 等 。 百 度 地 图 提供 了 丰富 的 API 供 开 友 者 调用 ， 我 们 可 以 免费 地 获取 各 类 地 点 的 具体 信息 。 


本 章 为 使 用 百度 API 获 取 数 据 的 实践 项 目 ， 所 采用 的 技术 包括 : 
- JER WR: 使 用 Requests 74 K A 度 地 图 API 地 址 
: 解析 网 页 : 提取 json 数 据 


-存储 数据 : 存储 至 MySQL 数 据 库 


本 项 目的 目标 是 通过 百度 地 图 Web 服 务 API 获 取 中 国 所 有 城市 的 公园 数据 ， 并 且 获 取 每 一 个 公园 具体 的 评分 、 搬 述 等 详情 ， 
最 终 将 数据 存储 到 MySQL 数 据 库 中 。 


百度 地 图 Place API 的 地 址 为 http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-placeapi， 如 图 15-1 
所 元。 
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Place API 是 一 次 简 单 的 接口 ， 用 于 返回 可 询 革 个 区 域 的 某 光 POIS 据 , 目 择 供 单 个 PO] 的 详情 吉 词 服务， 用户 可 以 使用 
Place Suggestion API (C#、 人 C++，Java 等 开发 语言 发 送 请 求 且 按 物 $on、xml 的 获 据 ， 

Place APL 已 全 面 支持 HTTR/HTTPS 两 种 请 求 形式 。 后 文 介绍 中 以 HTTP 请 求 为 例 ， Placis sik 
Geocoding AFI place 区 域 检 志 PDI 甩 宪 


Oe Bea APT We Testis 


批 旺 行 驶 距离 计算 AP] v Place API RETA EPOS SPORHAERS. 
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Timezone API . ERS ( 对 应 JavaSscript 的 SearchNearBy 方 法 ). 
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图 15-1 百度 地 图 Place API 


其 实 ， 网 络 胞 虫 除 了 可 以 直接 进入 该 网 站 的 网 页 进行 他 取 外 ， 还 可 以 通过 网 站 提供 的 APl 进 行 他 取 。 由 于 APl 是 官方 提供 的 
数据 获取 通道 ， 因 上 v 数 据 的 获取 是 没有 争议 的 。 如 果 一 个 网 站 提供 API 获 取 数 据 ， 那 么 最 好 使 用 API 获 取 ， 既 简单 又 方便 。 


除了 本 章 提 到 的 百度 地 图 ， 其 他 国内 提供 API 免 费 获取 数据 的 站 点 还 有 新 浪 微 博 、 豆 淤 电影 、 饿 了 么 、 豆 准 音 乐 等 ， 国 外 提 
供 API 的 服务 有 Facebook、Twitter 等 。 除 此 之 外 ， 还 有 很 多 收费 的 AP| 数 据 站 点 ， 包 括 百 度 API Store 和 聚合 数据 等 ， 对 这 些 有 
兴趣 的 读者 可 以 去 搜索 一 下 。 


15.2 ”获取 APl 秘 外 


首先 ， 打 开 和 百度 地 图 Place APl， 如 果 有 百度 账号 ， 可 以 单 击 右上 角 的 “登录 。 登 录 后 可 以 进入 “API 控 制 侣 ”， 单 
击 “ 创 建 应 用 ”按钮 ， 如 图 15-2 所 示 。 
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图 15-2 ”API 控制 台 


填写 好 应 用 名 称 ， 并 选择 使 用 IP 日 名 单 校 验方 式 进行 校 验 。 在 IP 日 名 蛙 的 文本 框 中 填写 0.0.0.0/0， 以 表示 不 想 对 IP 做 任何 限 
制 ， 如 图 15-3 所 示 。 单 击 “ 提 交 ” 按 钮 后 ， 即 可 在 API 控 制 台中 看 到 自己 的 AK， 也 残 是 API 请 求 串 的 必 填 参数 。 
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IP 白 名 单 校 验 ， 


0.0.0.0/0 


图 15-3 ”使 用 IP 白 名 单 校 验方 式 


请 注意 ， 每 一 个 账号 一 天 只 有 2000 次 的 调用 限额 。 如 果 进 行 了 认证 ,一 天 区 会 有 10 万 次 的 调用 限额 。 


15.3 ”项 目 实施 


本 项 目的 实施 分 为 以 下 3 步 : 

(1) 获取 所 有 拥有 公园 的 城市 ， 并 仓储 至 TXT。 
(2) 获取 所 有 城市 的 公园 数据 ， 并 存储 至 MySQL。 
(3) 获取 所 有 公园 的 详细 信息 ， 并 仓储 至 MySQL。 


在 百度 地 图 Place API 中 ， 如 果 需 要 获取 数据 ， 向 指定 的 URL 地 址 发 送 一 个 GET 请 求 即 可 。 例 如 ， 要 获取 数据 的 城市 为 北 
京 ， 检 索 关 键 字 为 “饭店 ”， 检索 后 返回 10 条 数据 ， 可 以 请 求 下 面 的 地 址 : 


http://api.map.baidu.com/place/v2/search?q= 饭 店 &region= 北 京 &output=json&ak= 您 的 AK 
该 地 址 中 有 一 些 需要 设置 的 参数 ， 常 用 的 参数 如 表 15-1 所 示 。 
表 15-1 第 用 的 参数 及 其 含义 


Region a 检索 关键 字 
Region 


检 寺 区域 ( 市 级 以 上 行政 区 域 ) 


2 N. 
Bia 检索 结果 详细 程度 。 若 取 值 为 1 或 空 
则 返回 基本 信息 ， 若 取 值 为 2， 则 返回 
Ww MA POI FE FIE AA 3 


page size 10~20 范围 记录 数量 ， 默 认为 10 条 记录 ， 最 

大 返回 20 条 

分 页 页 码 ，0 代表 第 一 页 ，1 代表 第 二 
页 


输出 格式 为 json 或 xml 
w je a 你 的 秘 全 用 户 的 访问 密 乌 ， 必 填 项 


如 果 你 想 深 入 了 解 Place API 的 参数 和 使 用 ， 可 以 访问 之 前 公布 的 百度 地 图 Place API 的 地 址 。 


下 面 尝 试 获取 北京 市 的 公园 数据 ， 并 用 json 数 据 格式 返回 。 


#!/usr/bin/python 
# coding: UTF-8 


得 到 的 结果 如 图 15-4 所 示 。 


"status": Ü, 
"message" : ok”, 
“total” :400, 
“results :[ 
| 
“name” : “PAME”, 
"location": i 
"lat" :39. 9984175, 
"Ing" :116. 27487 
la 
“address” :北京 市 海 演 区 新 建 豆 | 19s", 
“street id’ : 2aT7Ta2pecfgcf 13636d3elbad ， 
“telephone” :" 010-62881144", 
“detail”: 1, 
“uid :° 2aTa25ecf9cf 13635 6d5elbad", 
“detail irfo :1 
“tag: “Reo Riek", 
“type: scope’, 
"detail url": “http: // api. map. baidu co 
“price :° 30", 
“overall rating’:"3.8", 
“Image rum : 219", 
“comment rum: 2239 


图 15-4 获取 北京 市 的 公园 数据 


15.3.1 ”获取 所 有 拥有 公园 的 城市 


接 下 来 获取 所 有 拥有 公园 的 城市 ， 并 把 结果 写 入 MySQL 中 。 


在 百度 地 图 的 Place APl 中 ， 如 果 region 的 取 值 为 “全 国 ”或 某 省 份 ， 束 返回 指定 区 域 的 POI 及 数量 。 例 如 ， 设 置 region 为 
广东 省 ,可 以 得 到 广东 省 各 个 市 的 情况 : 


{ "status":0, "message":"ok", "total":21, "results":[ { "name":" 广州 市 

"num":1369 }, { "name":" 深 圳 市 ", "num":1006 }, { "name":" 东 莞 市 ", "num":501 }, 

"name":" 佛 山 市 ", "num":818 }, { "name":" 患 州 市 ", "num":192 }, .. { "name":" 云 
eT", 7 } ] 


我 们 可 以 把 region 设 置 为 各 个 省 份 ， 进 而 获取 各 市 的 公园 数量 。 值 得 注意 的 是 ， 由 于 四 大 直辖 市 (北京 、 上 海 、 天 津 、 重 
庆 ) 、 香 港 特别 行政 区 和 澳门 特别 行政 区 一 个 城市 便 是 省 级 行政 单位 ， 因 此 region 设 置 的 省 份 不 包含 这 些 特殊 省 级 行政 单位 。 


输出 的 结果 如 图 15-5 所 示 。 


图 15-5 ”显示 输出 的 结果 


我 们 还 要 获取 4 个 直辖 市 和 香港 地 区 、 澳 门 地 区 的 数据 (本 实例 未 对 台湾 地 区 进行 统计 ) 。 使 用 下 面 的 代码 可 以 获取 这 6 个 
城市 的 公园 数量 ， 并 人 存储 全 cities.txt。 


输出 到 cities.txt 的 结果 如 图 15-6 所 示 。 


图 15-6 ”输出 的 结果 


15.3.2 ”获取 所 有 城市 的 公园 数据 


在 从 各 个 城市 获取 公园 的 数据 之 前 ， 需 要 在 MySQL 数 据 库 中 创建 一 个 baidumap 数 据 库 ， 用 来 存放 所 有 数据 。 打 开 MySQL 
5.7Command Line Client-Unicode， 输 入 : 


CREATE DATABASE baidumap; 


然后 ， 需 要 在 baidumap 数 据 库 中 创建 一 个 city 的 数据 表格 ， 用 来 存放 所 有 城市 的 公园 数据 。 这 个 表格 里 面 的 变量 有 哪些 
呢 ? 可 以 在 浏览 器 中 打开 一 个 查询 北京 的 公园 的 地 址 : http://api.map.baidu.com/place/v2/search?q= 公 园 &region= 北 京 
&scope=2&page size=20&page num=0&output=json&ak= 你 的 ak， 如 图 15-7 所 示 。 


“results :[ 


"name": "HAMR, 
“location”: { 

"lat" :39. 998475, 
"Ing" :116.27487 


}， 
“address” :“ 北 京 市 海 注 区 新 建言 | ] 路 19 号 ”， 
“street id :" 2aTa@ecf9cf 13636d3elbad’, 
“telephone” :"010-62881144", 
“detail”: 1, 
“uid” :“ 2aTa26 it Qcf 13636d5elbad", 
“detail info": { 
“tag” :; 旅游 景点 ， RRE“, 
“type” :" scope“, 
“detail url":"http://api. map. baidu com place/ detail ?uid=2aTa?5ecf9cf13636d3el badk output=html&source=placeapi_v2", 
“price’:"30", 
“overall rating”:"3.5", 
“image num : 219", 
“comment rum” : 22359" 


图 15-7 查询 北京 的 公园 


在 图 15-7 中 ， 公 园 的 变量 有 : city, park, location lat, location Ing, address, street id, telephone, detail, uid, 
tag, type, detail url, price, overall rating, image num, comment num。 为 了 避免 数据 存储 的 重复 ， 公 园 的 详细 信息 
会 在 另 一 个 表 保 仔 ， 这 个 表 主 要 用 来 仔 放 城市 的 公园 名 称 ， 所 以 这 个 名 为 city 的 数据 表 的 变量 有 : city, park, location_lat, 


location Ing, address, street id, uid. 


我 们 可 以 使 用 Python 的 mysdqlclient 库 来 操作 MySQL 数 据 库 ， 在 baidumap 数 据 库 中 加 入 这 个 表格 。 


#coding=UTF-8 
import MySQLdb 


conn= MySQLdb.connect (host='localhost! , user='root', 
passwd='root', db ='baidumap', charset="utf8") 
Cur = Conn, curser |} 
sql = """CREATE TABLE city ( 
id INT NOT NULL AUTO INCREMENT, 


接 下 来 爬 取 每 个 城市 的 公园 数据 ， 并 将 其 加 入 city 数 据 表 中 ， 代 码 如 下 : 


在 上 述 代码 中 ， 首 先 从 TXT 文 件 中 获取 城市 列表 ， 并 加 入 city_list 中 。 然 后 使 用 循环 对 每 一 个 城市 、 每 一 个 页 面 进行 抓 取 ，。 
将 获取 的 数据 用 INSERT 的 万 法 加 入 baidumap.city 数 据 表 中 。 


值得 注意 的 是 ， 因 为 有 一 些 变量 在 某 些 公园 缺失 (如 有 些 公 园 没 有 街道 id (street id) ) ， 所 以 需要 使 用 try...except 的 方 
法 ， 如 果 在 decodejson 中 并 没有 该 变量 ， 就 会 将 None ( 空 值 ) 赋予 该 变量 。 


执行 完成 后 ， 可 以 在 MySQL 的 Workbench 查 看 数据 ， 输 入 : 
SELECT * FROM baidumap.city; 


得 到 的 数据 表格 详情 如 图 15-8 所 示 。 


| | id city park location_lat location_Ing address street_id uid 
» 1 南京 市 ”玄武 湖 公 园 32.0786 118.8 南京 市 玄武 区 玄武 营 1 呈 ( 近 洞 府 路 ) 6265d58ddc79ad6ldfle5286 6265d58ddc79ad6 1dfle5286 
2 ”南京 市 ”珍珠 泉 公 园 32.1281 118.665 南京 市 浦口 区 珍珠 街 178 号 f633606a lb34ba4e0b69d9fc  f633606a1b34ba4e0b69d9fc 
3 ”南京 市 ” 红 山 森林 动物 园 32.0988 118.809 江苏 省 南京 市 红 山 路 153 号 610ee7c0a14acf654e5547a0 03ff5e2ecd84c091bea24001 
4 ”南京 市 ”古林 公园 32.0725 118.76 江苏 省 南京 市 就 楼 区 虎 中 北 路 21 号 «cBbScdefeeScd91a130daa75 = cBb ScdefeeScd9 1a 130daa75 
5 ”南京 市 ”金牛 湖 公园 32.4755 118.975 金牛 湖 景区 58 号 34e48508f7el05e2d9d89le0 34e48508f7e105e2d9d891e0 


mt p 


图 15-8 ”数据 表格 详情 


15.3.3 ”获取 所 有 公园 的 评 细 信息 


baidumap 数 据 库 已 经 有 了 city 这 个 表格 ， 和 存储 了 所 有 城市 的 公园 数据 。 但 是 这 些 数据 属于 比较 粗略 的 公园 数据 ， 接 下 来 我 
们 将 利用 百度 地 图 的 Place 详 情 检索 服务 获取 每 一 个 公园 的 详情 。 

例如 ， 查 询 南 京 辫 武 湖 公 园 的 详细 信息 ， 辫 武 湖 公 园 的 uid 是 6265d58ddc79ad61df1e5286， 于 是 在 浏览 器 地 址 栏 输 
A: http://api.map.baidu.com/place/v2/detail?uid=6265d58ddc79ad61df1le5286&output=json&scope=2&ak= 你 的 
ak, 


得 到 的 结果 除了 一 般 的 信息 ， 还 包括 如 图 15-9 所 示 的 信息 。 


iF 
“shop_hours":“ FA: 06:00°18:0075RA: 06:00°20:00", 
“alias’:” SHRM MARSS RMS KIS Re, 
"scope type": “:i8:A, 
“scope grade’ : AAAA”, 


“description :玄武 湖 古 名 时 泊 中 国 最 太 的 旦 家 园林 湖泊 ， SARA Se Glan. 位 于 南京 城中 
SAR: TARA BASH: BAR Me 江南 三 太 名 湖 之 一 ， 是 江 丙 萌 大 的 城内 必 四 ， 被 党 为 “全 陵 明 j 
1909 年 冬 为 公园 ， 时 称 五 洲 公 园 。 玄 武 湖 方圆 近 五 里 ， SEAN: NEE: SA. aba AK: 


图 15-9 ”显示 公园 的 详细 信息 


我 们 可 以 在 MySQL 中 创建 一 个 表格 park， 用 来 存放 公园 的 详细 信息 。 下 面 使 用 Python 的 mysqlclient 操 作 MySQL Server 创 
建 表格 park， 代 码 如 下 : 


#coding=UTF-8 
import MySQLdb 


创建 好 数据 表 park 后 ， 就 可 以 使 用 Python 获取 公园 的 详细 信息 了 ， 代 码 如 下 : 


首先 ， 需 要 从 baidumap.city 表 格 中 获取 所 有 的 uid， 这 用 到 了 SQL 命令 : Select uid from baidumap.city where id>0, 
然后 用 到 了 cur.fetchall0 万 法 ， 可 以 接收 全 部 返回 的 结果 行 。 


对 于 每 一 个 结果 ， 使 用 uid 到 函数 getjson(0) 获 取 数 据 ， 然 后 执行 sql 语 句 ， 并 搬入 表格 baidumap.park 中 。 


执行 完成 后 ， 我 们 可 以 在 MySQL 的 Workbench 碍 看 数据 ， 输 入 : 


得 到 的 数据 表格 详情 如 图 15-10 所 示 。 


| id park location lat _location_Ing address street jd _telephone < 
» |1 ZRA 32.0786 118.8 南京 市 立 武 区 玄武 意 1 号 ( 近 洞庭 路 ) 6265d58ddc79ad61dfle5286 025-83614286 |_| 
|2 珍珠 泉 公园 32.1281 118.665 南京 市 浦口 区 珍珠 街 178 号 f633606a1b34ba4e0b69d9fc (025)58601545 
13  ” 红 山 森林 动物 园 。 32.0988 118.809 ”江苏 省 南京 市 红 山 路 153 号 610ee7c0al4acf654e5547a0 (025)85518101 
|4 ”上 古林 公园 32.0725 118.76 江苏 省 南京 市 鼓楼 区 虚 跟 北 路 21 呈 c8b5cdefee5cd91a130daa75 (025)83700646 
| 5 金牛 湖 公 园 32,4755 118.975 全 和牛 湖 景区 58 号 34e48508f7el05e2d9d891e0 (025)57566968 < 
p ' 
$num commentnum shophours alias keyword scope_type scope_grade description created_time : 
y 991 PA: 06:00~... 南京 市 玄武 ..…。 风景 优美 /环境 ..， 湖泊 AAAA SHA SAPS... 2017-04-05 00:53:33 | 
| 81 珍珠 泉 风景 区 ,,， $ 珍 珠 泉 $ 珍 ..， 风景 还 行 /环境 ..， 山岳 /山岭 ,.，AAAA 珍珠 泉 旅游 度假 区 占 ..， 2017-04-05 00:53:33 
140 3 月 -10 月 : 7:,.， SRL... 环境 很 好 /风景 ,,， 动 植物 园 AAAA 红 山 森林 动物 园 由 南 ..， 2017-04-05 00:53:33 
16 古林 公园 〈 虎 ..， 环 境 不 错 / 店 内 ..， 公 园 古林 公园 位 于 南京 清 ..， 2017-04-05 00:53:33 
97 SEHE- 湖面 好 /风景 优 ..， 湖泊 AAA 江苏 经 典 民歌 茉莉 花 ..， 2017-04-05 00:53:33 ”~ 
[é C fy 


图 15-10 使 用 MYSQL 获取 数据 


本 次 抓 取 获 得 了 所 有 公园 的 详细 人 信息， 并存 入 了 表 park 中 。 


15.4 


总 疆 


TS 


-不 本 


本 草 实践 了 如 何 使 用 API 获 取 数 据 ， 以 及 如 何 解 析 JSON 数 据 并 将 数据 存储 到 MySQL 中 。 如 果 还 想 通 过 API 获 取 其 他 数据 ， 


百度 地 图 的 API 拥 有 丰富 的 和 餐馆、 房地产 等 数据 ， 可 以 尝试 使 用 本 章 的 方法 获取 。 


第 16 章 ”有 息 虫 实践 四 : 餐厅 点 评 


我 们 平时 去 餐厅 吃饭 之 前 ， 忌 喜欢 先 在 网 上 找 找 和 餐厅 的 评价 ， 然 后 再 决定 去 哪 家 和 餐厅。 在 互联 网 艾 厅 点 评 网 站 中 ， 大 众 点 评 
是 知名 的 第 三 方 消 费 点 评 网 站 ， 也 是 一 个 本 地 生活 信息 及 交易 平台 。 因 此 ， 人 在 大 众 上 后 评 上 有 很 多 商 尸 的 信息 和 用 己 点 评 数 据 。 


本 草 为 肛 取 大 傣 操 评 数据 的 实践 项 目 ， 所 采用 的 技术 包括 : 
- A# JF] Selenium Je R W žk 
- 使 用 BeautifulSoup 解 析 网 页 


- 数据 存储 至 CSV 文 件 


16.1 MHINA 


本 项 目的 目标 是 候 取 大 众 后 评 深圳 站 的 餐厅 信息 。 首 先 使 用 Selenium 获 取 网 页 的 信息 ， 然 后 使 用 BeautifulSoup 解 析 网 页 
中 的 数据 ， 最 终 将 数据 仓储 至 CSV 文 件 中 。 


本 项 目的 数据 获取 分 为 两 步 : 
(1) 通过 大 众 点 评 的 搜索 结果 获取 和 餐厅 的 基本 信息 和 地 址 。 
(2) 进入 每 家 店铺 的 网 页 ， 获 取 大 众 后 评 和 餐厅 的 详细 信息 和 评价 。 


大 众 点 评 深圳 站 餐厅 的 地 址 为 http://www.dianping.com/search/category/7/10， 如 图 16-1 所 示 。 


SF KAS 


re dianging com 


MAN Dies = 
GME) 935 Sse | At #72 
i= | So BLS oe es OR E.. 


图 16-1 大 众 点 评 网 站 


16.2 ”网 站 分 析 


首先 分 析 一 下 第 一 步 ， 打 开 大 众 点 评 深 圳 站 的 美食 页 面 后 ， 可 以 友 现 每 页 只 加 载 了 15 个 和 餐厅。 如 果 需 要 有 息 取 其 他 餐厅， 还 
要 单 击 “ 下 一 页 ” 换 页 ， 最 多 可 以 爬 取 的 页 面 有 50 页 。 从 第 一 页 翻 页 到 第 二 页 ， 第 二 页 的 网 址 
fEhttps://www.dianping.com/search/category/7/10/p2. 

其 实 ， 网 址 的 变化 就 是 最 后 的 p1 变 成 了 p2。 因 此 ， 只 需 将 网 址 的 最 后 数字 变换 成 相应 的 网 页 ， 就 可 以 用 一 个 循环 肛 取 所 有 
的 餐厅 网 址 了 。 


此 外 ， 我 们 还 可 以 通过 Chrome 浏 多 器 的 “审查 元 素 ” 功 能 找到 想 要 的 数据 地 址 ， 如 图 16-2 所 示 。 可 以 友 现 ， 所 有 的 餐厅 都 
在 一 个 class 为 shop-all-list 的 div 中 ， 我 们 可 以 从 中 提取 和 餐厅 的 数据 。 


1 | 765x141 可 订 座 可 外 过 
KYOKU 日 本 料理 {福田 店 } 分 后 


ESSE: 2908F | AH 343 日 昧 350 环境 9.0 服务 9.1 
OSRE | 市 中 心 区 中 心间 路 1 号 喜 里 建设 广场 征 ] 建 1 楼 


= i al = : 下 FP _* i i> IL | ry : 
k s tiements Console Sources Network Timeline Profiles Applicaton Security Audits Adblock Plus 


T ¿div ¢class="content-wrap 
<4-- 左 便 --， 
div class="shop-wrap"> 
¥ ¿odiv class="content 
¿div class="filter-box" >.< /div> 
liv class="shop-list J shop-list shop-all-list" id="shop-all-list" 


i class 
<div class="pic">..¢/div> 
Y ¿div class="txt"™: 
F ¿diy class="tit" 
Vea onetiee document. hippo. ext({cl_i:1,query_id:'22312c4b-6344-4765-8d6f-c920b4b000a4'}).mv('cl_to_s',21738530); 
" data-hippo-type="shop" title="KYOKUR AHS (qRRAIE)” target="_blank” href="/shop/ 21738538" > 
<h4>KYOKU 日 本 料理 (福田 店 )</h4> == $8 


图 16-2 ”利用 “审查 元 素 ” 功 能 查找 想 要 的 数据 地 址 


在 第 二 步 中 ， 当 我 们 单 击 进入 一 家 餐厅 的 页 面 后 ， 可 以 获取 该 餐厅 的 “推荐 菜 ” 和 “网 友 点 评 ”。 使 用 Chrome 浏 览 县 
的 “审查 元 素 ” 功 能 可 以 友 现 ， 所 有 的 “推荐 菜 ” 在 一 个 class 为 recommend-name 的 p 中 ， 如 图 16-3 所 示 。 
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图 16-3 ”获取 该 餐厅 的 “推荐 菜 ” 和 “网 友 点 评 ” 


我 们 发 现 所 有 的 “网 友 点 评 ” 在 一 个 class 为 content 的 <div> 元 素 中 ， 每 一 条 评价 的 总 结 都 在 class 为 good J-summary 的 
<span> 中 ， 如 图 16-4 所 示 。 
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16.3 项目 实施 


本 项 目的 实施 分 为 以 下 两 步 : 


(1) 获取 深圳 所 有 的 餐厅 ， 并 仓储 至 CSV 文 件 中 。 


(2) 进入 餐厅 页 面 ， 获 取 详 细 推 荐 菜 和 评价 总 结 ， 并 仓储 至 CSV 文 件 中 。 


16.3.1 ”获取 深圳 的 餐厅 列表 


首先 使 用 selenium 打 开 大 众 点 评 深 圳 站 的 美食 页 面 ， 代 码 如 下 : 


from selenium import webdriver 
driver = webdriver.Firefox() 


driver.get ("https://www.dianping.com/search/category/7/10/p1") 
运行 之 后 ， 程 序 报错 : 


selenium.common.exceptions.WebDriverException: Message: 'geckodriver' 
executable needs to be in PATH. 


于 是 ,我 们 需要 从 网 上 下 载 一 个 geckodriver， 并 放 在 环境 变量 的 PATH 中 。 如 果 是 Windows 系 统 ， 可 以 
去 https://github.com/mozilla/geckodriver/releases 下 载 最 新 版 的 geckodriver， 下 载 下 来 的 是 一 个 ZIP 文 件 ， 解 压 后 可 以 放 
在 Anaconda 的 安装 地 址 中 ， 如 C:\ProgramData\Anaconda3\Scripts。 然 后 在 环境 变量 的 PATH 中 加 入 这 个 geckodriver 的 地 
址 。 除 了 下 载 geckodriver 外 ， 还 需要 在 代码 中 指定 Firefox 程 序 的 地 址 ， 因 此 ， 最 后 的 代码 如 下 : 


from selenium import webdriver 
From Selenium. wovdr iver. hirerox, hiretex binaty Import 


FirefoxBinary 


caps = webdriver.DesiredCapabilities() .FIREFOX 

caps["marionette"] = False 

binary = FirefoxBinary(r'D:\Program Files\Mozilla 
Firefox\firefox.exe') 

# 把 上 述 地 址 改 成 你 计算 机 中 Firefox 程序 的 地 址 

dryer er Ver El ole olny OIDA; 
capabilities=caps) 

driver.get ("https://www.dianping.com/search/category/7/10/p1") 


运行 上 述 代码 后 ， 可 以 友 现 大 众 点 评 页 面 一 直 没 有 加 载 完 成 ， 导 致 程序 一 直 在 等 待 。 根 据 第 4 章 介绍 的 方法 ， 我 们 可 以 及 用 
隐 性 等 待 万 法 implicitly_ wait(xx)， 它 会 设置 一 个 最 长 等 竺 时间 ， 如 果 在 规定 时 间 内 网 页 加 载 完 成 ， 融 执行 下 一 步 ， 否 则 一 直 等 
到 时 间 规 止 再 执行 下 一 步 。 此 外 ， 还 可 以 采用 限制 加 载 图 片 和 Javascript 的 方法 ， 以 加 快 加 载 过 程 。 


采用 隐 性 等 待 、 限 制 加 载 图 片 和 和 JavaScript 的 方法 后 ， 更 新 的 代码 如 下 : 


通过 此 方法 得 到 的 网 站 情况 如 图 16-5 所 示 。 
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图 16-5 查看 提取 的 结果 


我 们 可 以 尝试 从 数据 中 提取 需要 的 数据 ， 包 括 和 餐厅 名 称 、 和 餐厅 种 类 、 所 在 地 区 、 和 餐厅 地 址 、 操 评 数量 、 人 均 价 格 、 评 分 等 。 
在 下 面 的 代码 中 ， 定 义 了 一 个 函数 outputOneCommentResult， 该 国 数 使 用 BeautifulSoup 提 取 数 气 。 


在 上 述 函 数 中 ， 首 移 找到 了 id='shop-all-list 元 率 下 面 的 ul 元 素 ， 所 有 的 餐厅 信息 都 保存 在 里 面 。 然 后 使 用 循环 提取 想 要 的 


并 加 入 output list 列 表 中 。 


餐厅 信息 ， 
如 果 需 要 把 全 部 50 页 的 数据 都 提取 出 来 ， 相 应 的 代码 如 下 : 


在 上 述 代码 中 ， 我 们 加 入 了 一 个 循环 ， 用 于 从 搜索 结果 的 第 一 页 爬 取 到 第 ?0 页 ， 在 每 次 聆 取 后 ， 数 据 都 会 输入 output_ list 
中 。 最 后 把 数据 写 入 CSV 中 。 


在 成 功 执行 爬虫 程序 后 ， 得 到 的 数据 如 图 16-6 所 示 。 
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图 16-6 ”人 疏 求 后 得 到 的 数据 
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如 果 本 章 的 他 虫 对 你 来 说 太 简 单 ， 可 以 将 多 服务 器 或 Tor 有 息 虫 与 本 章 的 内 容 结合 起 来 ， 尝 试 一 下 更 换 IP 的 他 虫 。 如 果 你 仍 有 
兴趣 ， 可 以 尝试 模仿 第 11 章 的 内 容 ， 将 Tor 息 虫 和 多 线程 技术 结合 起 来 。 唯 有 多 进行 训练 和 实践 ， 拒 虫 的 功夫 才能 更 上 一 层 楼 。 


